JP2003255981A - 要約情報提供方法、要約情報提供装置、要約情報提供プログラム - Google Patents
要約情報提供方法、要約情報提供装置、要約情報提供プログラムInfo
- Publication number
- JP2003255981A JP2003255981A JP2002058447A JP2002058447A JP2003255981A JP 2003255981 A JP2003255981 A JP 2003255981A JP 2002058447 A JP2002058447 A JP 2002058447A JP 2002058447 A JP2002058447 A JP 2002058447A JP 2003255981 A JP2003255981 A JP 2003255981A
- Authority
- JP
- Japan
- Prior art keywords
- probability
- voice
- paragraph
- audio
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
の人材を判定することに利用することができる要約配信
方法を提供する。 【解決手段】 話者の発話から取得した音声波形情報
と、話者の発話状況を撮影した映像情報と、話者が入力
した個人情報とをデータベースに格納し、利用者から要
求された検索条件に従って前記データベースに蓄積され
た個人情報を検索し、検索条件に適合した話者を抽出
し、当該話者の音声情報から話者の強調音声区間を要約
音声情報として抽出し、この要約音声情報に対応する映
像情報を抽出し、この映像情報と前記要約音声情報を前
記利用者に配信する要約情報配信方法。
Description
の要部を決定する要約情報提供方法、要約情報提供装
置、要約情報提供プログラムに関し、例えば求職者の自
己PR映像を自動的に生成し、採用活動の負担を軽減す
る人材発掘システムに応用したものである。
業斡旋所などに設置され、求人、求職者が独自に各種情
報の伝達、交換をおこない、面接予約、テレビ電話を利
用した簡易面接を援助する職業紹介システムがあった。
たとえば、日本国特開平11−143957号公報など
に示されている。また、応募者と企業とをネットワーク
を介して接続し、応募者と企業に関する情報をインタラ
クティブに管理するシステムがあった。たとえば、日本
国特開2001−202407公報などに示されてい
る。
種、履歴情報などから派遣労働者の適正や性能を診断す
る派遣労働者の登録システムがあった。たとえば、日本
国特開2001−229278公報などに示されてい
る。また、結婚紹介などで年齢、身長、体重、兄弟関
係、学歴、職業、収入、趣味、特技などの文字データ
と、必要に応じて、自己紹介音声、映像をもちいて仲介
者を必要としないコンピュータネットワークがあった。
たとえば、日本国特開平6−19926号公報などに示
されている。
務内容などを自動的に抽出し、また、自己PRポイント
を自動的に抽出し、求職者が個人の職務経歴を入力する
と、企業側が求めているサマリーを作成するなどの求職
求人情報システムがあった。たとえば、日本国特開20
01−142939号公報などに示されている。また、
オーディションなどで自己の要旨、趣味範囲、思考、表
現力、歌唱力などの才能を含むアピール情報に関する応
募を簡易に行い、発掘側が検索するシステムがあった。
たとえば、日本国特開2000−305980公報など
に示されている。
動を行うには、採用者が求職者の書類審査を行い、求職
者を1回以上面接して採用可否を決定している。面接
後、保存されるのは書類だけで求職者の印象は採用者の
記憶にしか頼ることが出来ない。また、映像などに記録
されていた場合においても、採用者の映像をすべて見る
ことは時間を浪費するため、現実的ではない。書類によ
る第一次選考などの方法もあるが、時間的浪費を軽減す
るためのものであり、求職者本人に会うことなしに、あ
るいは求職者の映像を見ることなしに求職者が採用者の
希望に見合わないかは判断不可能である。
は、入力項目に応じて、スキル、担当業務内容などを自
動抽出し、自己PRポイントを自動抽出し、求職者が個
人の職務履歴を入力すると、企業側が求めているサマリ
ーを作成するなどの処理を施しているが、これらはテキ
スト情報から導かれたものであり、たとえば自己PRを
テキスト情報だけで判断することは不可能である。ま
た、日本国特開2001−229278公報では、派遣
労働者の適正や、能力を判断しているが、適正や能力だ
けで採用するわけではなく、これらのみで採用可能であ
れば面接などは必要がない。テキスト情報に依存した採
用システムは前記第一次選考の簡易化にすぎず、有用な
方法とは言えない。
キストベースの自己データに加えて、写真、映像などの
登録も行い、また、日本国特開2000−305980
公報では、オーディションなどにたいして、自己の容姿
などを画像や映像なども用いておこなえるシステムを開
発しているが、これらは最終的には映録を再生する時間
が必要であり、要旨を理解するには早送りなどの機能を
用いても限界がある。特開2001−202407公報
では、求職者と採用者を、ネットワークを介して接続し
情報をインタラクティブに管理しているが採用の負担が
軽減する構成にはなっていない。また、特開平11−1
43957号公報ではTV電話などにより、簡易的な面
接も実現しているが、ネットワークを介しているだけで
あり、面接にかかる場所の移動以外に採用者の採用活動
負担の軽減にはなっていない。
る欠点に鑑みてなされたもので、例えば求職者のように
個人情報を提供する情報提供者が提供した映像を効率的
に要約することで、多数の情報を短時間で閲覧し、多数
の情報の中から目的に合致した情報を検索する作業量の
激減を図ることができる要約情報提供方法、要約情報提
供装置、要約情報提供プログラムを提供しようとするも
のである。
めに、情報提供者が提供する音声付映像を要約する要約
情報提供方法を提供することを本発明の最も主要な特徴
とするものである。この発明では項目別に映像信号と同
時に収録された音声信号と該音声信号の属性情報とを対
応付けて蓄積するデータ蓄積手段と、少なくとも基本周
波数又はピッチ周期、パワー、動的特徴量の時間変化特
性、又はこれらのフレーム間差分を含む特徴量と強調状
態での出現確率とを対応して格納した符号帳とを用い、
希望属性情報を入力し、前記希望属性情報で示される条
件を満足する属性情報と該属性情報に対応する項目別の
映像信号と音声信号を前記データ蓄積手段から読み出
し、前記音声信号をフレーム毎に分析した前記特徴量に
対応する強調状態での出現確率を求め、前記強調状態で
の出現確率に基づいて強調状態となる確率を算出し、前
記強調状態となる確率が所定の確率よりも大きい音声信
号区間を要約区間と判定し、前記要約区間の映像信号と
前記読み出された属性情報の少なくとも一部を出力する
要約情報提供方法を提案する。
号帳が少なくとも基本周波数又はピッチ周期、パワー、
動的特徴量の時間変化特性、又はこれらのフレーム間差
分を含む特徴量と強調状態での出現確率に対応して平静
状態での出現確率が格納され、前記音声信号をフレーム
毎に分析した前記特徴量に対応する平静状態での出現確
率を求め、前記平静状態での出現確率に基づいて平静状
態となる確率を算出し、前記強調状態となる確率の前記
平静状態となる確率に対する確率比を音声信号区間ごと
に算出し、前記確率比の降順に対応する音声信号区間の
時間を累積して要約区間の時間の総和を算出し、前記要
約区間の時間の総和が所定の要約時間となる音声信号区
間を要約区間と決定する要約情報提供方法を提案する。
ごとに無音区間か否か、有声区間か否か判定し、所定フ
レーム数以上の無音区間で囲まれ、有声区間を含む部分
を音声小段落と判定し、音声小段落に含まれる有声区間
の平均パワーが該音声小段落内の平均パワーの所定の定
数倍より小さい音声小段落を末尾とする音声小段落群を
音声段落と判定し、前記音声信号区間は音声段落ごとに
定められたものであり、前記要約時間を音声段落ごとに
累積して求め、前記強調状態の確率又は前記確率比の降
順に音声段落ごとに前記要約区間の映像信号と音声信号
を出力する要約情報提供方法を提案する。
に収録された音声信号と、該音声信号の属性情報とを対
応付けて蓄積するデータ蓄積手段と、少なくとも基本周
波数又はピッチ周期、パワー、動的特徴量の時間変化特
性、又はこれらのフレーム間差分を含む特徴量と強調状
態での出現確率とを対応して格納した符号帳とを用い、
希望属性情報を入力し、前記希望属性情報で示される条
件を満足する属性情報と該属性情報に対応する項目別の
映像信号と音声信号を前記データ蓄積手段から読み出
し、前記音声信号をフレーム毎に分析した前記特徴量に
対応する強調状態での出現確率を求め前記強調状態での
出現確率に基づいて強調状態となる確率を算出する強調
状態確率計算部と、前記強調状態となる確率が所定の確
率より大きい音声信号区間を要約区間と判定する要約区
間決定部と、前記要約区間の映像信号と前記読み出され
た属性情報の少なくとも一部を出力する出力部とを具備
している要約情報提供装置を提案する。
能な符号によって記述され、前記の要約情報提供方法の
何れかをコンピュータ上で実行する要約情報提供プログ
ラムを提案する。 [作用]この発明によれば音声要約手段は、情報提供者
が提供する映像の音声を分析し、音声の重要部分(強調
区間)を抽出している。そのため、音声の重要部分の映
像をつなげて再生すると、映像の要旨や情報提供者の印
象を強く伝えることが可能となり、本発明の目的であ
る、提供された情報の要約を行うことが出来ることにな
る。
で、情報提供者である話者の映像を要約する。そのた
め、情報利用者(この要約情報提供方法を利用して例え
ば求人活動等を行う利用者)の希望する時間やシーン数
で要約映像を視聴することが可能となり、本発明の目的
である、採用者の採用活動の稼動を軽減することが出来
ることになる。情報利用者は希望する情報提供者の映像
を原映像より短かい時間で要部に絞って視聴する。その
ため、情報提供者の映像を情報利用者に強く印象付ける
ことが可能となり、本発明の目的である検索活動の効率
化が出来ることになる。
視聴される。そのため、情報提供者がテキスト情報以外
に情報利用者に自己アピールを行うことが可能となり、
本発明の目的であるテキスト情報に依存しない検索活動
が出来ることになる。
声小段落抽出方法、音声段落抽出方法、各音声小段落毎
に強調状態となる確率及び平静状態となる確率を求める
方法について、説明する。図17に先に提案した音声要
約方法の実施形態の基本手順を示す。ステップS1で入
力音声信号を分析して音声特徴量を求める。ステップS
2で、入力音声信号の音声小段落と、複数の音声小段落
から構成される音声段落を抽出する。ステップS3で各
音声小段落を構成するフレームが平静状態か、強調状態
か発話状態を判定する。この判定に基づきステップS4
で要約音声を作成し、要約音声を得る。
約に適用する場合の実施例を述べる。音声特徴量は、ス
ペクトル情報等に比べて、雑音環境下でも安定して得ら
れ、かつ話者に依存し難いものを用いる。入力音声信号
から音声特徴量として基本周波数(f0)、パワー
(p)、音声の動的特徴量の時間変化特性(d)、ポー
ズ時間長(無音区間)(ps)を抽出する。これらの音
声特徴量の抽出法は、例えば、「音響・音響工学」(古
井貞煕、近代科学社、1998)、「音声符号化」(守
谷健弘、電子情報通信学会、1998)、「ディジタル
音声処理」(古井貞煕、東海大学出版会、1985)、
「複合正弦波モデルに基づく音声分析アルゴリズムに関
する研究」(嵯峨山茂樹、博士論文、1998)などに
述べられている。音声の動的特徴量の時間変化は発話速
度の尺度となるパラメータであり特許第2976998
号に記載のものを用いてもよい。即ち、動的変化量とし
てスペクトル包絡を反映するLPCスペクトラム係数の
時間変化特性を求め、その時間変化をもとに発話速度係
数が求められるものである。より具体的にはフレーム毎
にLPCスペクトラム係数C1(t)、…Ck(t)を
抽出して次式のような動的特徴量d(ダイナミックメジ
ャー)を求める。d(t)=Σi=1k[Σf=t-f0t+f0[f
×Ci(t)]/(Σf=t-f0t+f0f2)2ここで、f0は
前後の音声区間フレーム数(必ずしも整数個のフレーム
でなくとも一定の時間区間でもよい)、kはLPCスペ
クトラムの次数、i=1、2、…kである。発話速度の
係数として動的特徴量の変化の極大点の単位時間当たり
の個数、もしくは単位時間当たりの変化率が用いられ
る。
とし、シフトを50msとする。1フレーム毎の平均の
基本周波数を求める(f0´)。パワーについても同様
に1フレーム毎の平均パワー(p´)を求める。更に現
フレームのf0´と±iフレーム前後のf0´との差分
をとり、±Δf0´i(Δ成分)とする。パワーについ
ても同様に現フレームのp´と±iフレーム前後のp´
との差分±Δp´i(Δ成分)を求める。f0´、±Δ
f0´i、p´、±Δp´iを規格化する。この規格は
例えばf0´、±Δf0´iをそれぞれ、音声波形全体
の平均基本周波数で割り規格化する。これら規格化され
た値をf0″、±f0″iと表す。p´、±Δp´iに
ついても同様に、発話状態判定の対象とする音声波形全
体の平均パワーで割り、規格化する。規格化するにあた
り、後述する音声小段落、音声段落ごとの平均パワーで
割ってもよい。これら規格化された値をp″、±Δp″
iと表す。iの値は例えばi=4とする。現フレームの
前後±T1msの、ダイナミックメジャーのピーク本
数、即ち動的特徴量の変化の極大点の個数dpを算出す
る。これと、現フレームの開始時刻の、T2ms前の時
刻を区間に含むフレームのdpとのΔ成分(−Δdp)
を求める。前記±T1msのdpと、現フレームの終了
時刻の、T3ms後の時刻を区間に含むフレームのdp
とのΔ成分(+Δdp)を求める。これら、T1、T
2、T3の値は例えばT1=T2=T3=450msと
する。フレームの前後の無音区間の時間長を±psとす
る。ステップS1ではこれら音声特徴パラメータの各値
をフレーム毎に抽出する。
落と、音声段落を抽出する方法の例を図18に示す。こ
こで音声小段落を発話状態判定を行う単位とする。ステ
ップS201で、入力音声信号の無音区間と有声区間を
抽出する。無音区間は例えばフレーム毎のパワーが所定
のパワー値以下であれば無音区間と判定し、有声区間
は、例えばフレーム毎の相関関数が所定の相関関数値以
上であれば有声区間と判定する。有声/無声の決定は、
周期性/非周期性の特徴と同一視することにより、自己
相関関数や変形相関関数のピーク値で行うことが多い。
入力信号の短時間スペクトルからスペクトル包絡を除去
した予測残差の自己相関関数が変形相関関数であり、変
形相関関数のピークが所定の閾値より大きいか否かによ
って有声/無声の判定を行い、又そのピークを与える遅
延時間によってピッチ周期1/f0(基本周波数f0)
の抽出を行う。これらの区間の抽出法の詳細は、例え
ば、「ディジタル音声処理」(古井貞煕、東海大学出版
会、1985)などに述べられている。ここでは音声信
号から各音声特徴量をフレーム毎に分析することについ
て述べたが、既に符号化等により分析された係数もしく
は符号に対応する特徴量を符号化に用いる符号帳から読
み出して用いてもよい。
区間の時間がそれぞれt秒以上になるとき、その無音区
間で囲まれた有声区間を含む部分を音声小段落とする。
このtは例えばt=400msとする。ステップS20
3で、この音声小段落内の好ましくは後半部の、有声区
間の平均パワーと、その音声小段落の平均のパワーの値
BAの定数β倍とを比較し、前者の方が小さい場合はそ
の音声小段落を末尾音声小段落とし、直前の末尾音声小
段落後の音声小段落から現に検出した末尾音声小段落ま
でを音声段落として決定する。
落を模式的に示す。音声小段落を前記の、有声区間を囲
む無音区間の時間がt秒の条件で、抽出する。図19で
は、音声小段落j−1、j、j+1について示してい
る。ここで音声小段落jは、n個の有声区間から構成さ
れ、平均パワーをPjとする。有声区間の典型的な例と
して、音声小段落jに含まれる、有声区間vの平均パワ
ーはpvである。音声段落kは、音声小段落jと音声小
段落を構成する後半部分の有声区間のパワーから抽出す
る。i=n−αからnまでの有声区間の平均パワーpi
の平均が音声小段落jの平均パワーPjより小さいと
き、即ち、 Σpi/(α+1)<βPj 式(1) を満たす時、音声小段落jが音声段落kの末尾音声小段
落であるとする。ただし、Σはi=n−αからnまでで
ある。式(1)のα、βは定数であり、これらを操作し
て、音声段落を抽出する。実施例では、αは3、βは
0.8とした。このようにして末尾音声小段落を区切り
として隣接する末尾音声小段落間の音声小段落群を音声
段落と判定できる。
落発話状態判定方法の例を図20に示す。ステップS3
01で、入力音声小段落の音声特徴量をベクトル量子化
する。このために、あらかじめ少なくとも2つの量子化
音声特徴量(コード)が格納された符号帳(コードブッ
ク)を作成しておく。ここでコードブックに蓄えられた
音声特徴量と入力音声もしくは既に分析して得られた音
声の音声特徴量との照合をとり、コードブックの中から
音声特徴量間の歪(距離)を最小にする量子化音声特徴
量を特定することが常套である。
を示す。多数の学習用音声を被験者が聴取し、発話状態
が平静状態であるものと、強調状態であるものをラベリ
ングする(S501)。例えば、被験者が発話の中で強
調状態とする理由として、 (a)声が大きく、名詞や接続詞を伸ばすように発話す
る (b)話し始めを伸ばして話題変更を主張、意見を集約
するように声を大きくする (c)声を大きく高くして重要な名詞等を強調する時 (d)高音であるが声はそれほど大きくない (e)苦笑いしながら、焦りから本音をごまかすような
時 (f)周囲に同意を求める、あるいは問いかけるよう
に、語尾が高音になるとき (g)ゆっくりと力強く、念を押すように、語尾の声が
大きくなる時 (h)声が大きく高く、割り込んで発話するという主
張、相手より大きな声で (i)大きな声では憚られるような本音や秘密を発言す
る場合や、普段、声の大きい人にとっての重要なことを
発話するような時(例えば声が小さくボソボソ、ヒソヒ
ソという口調)を挙げた。この例では、平静状態とは、
前記の(a)〜(i)のいずれでもなく、発話が平静で
あると被験者が感じたものとした。
話であるものとして説明したが、音楽でも強調状態を特
定することができる。ここでは音声付の楽曲において、
音声から強調状態を特定しようとした場合に、強調と感
じる理由として、 (a)声が大きく、かつ声が高い (b)声が力強い (c)声が高く、かつアクセントが強い (d)声が高く、声質が変化する (e)声を伸長させ、かつ声が大きい (f)声が大きく、かつ、声が高く、アクセントが強い (g)声が大きく、かつ、声が高く、叫んでいる (h)声が高く、アクセントが変化する (i)声を伸長させ、かつ、声が大きく、語尾が高い (j)声が高く、かつ、声を伸長させる (k)声を伸長させ、かつ、叫び、声が高い (l)語尾上がり力強い (m)ゆっくり強め (n)曲調が不規則 (o)曲調が不規則、かつ、声が高い また、音声を含まない楽器演奏のみの楽曲でも強調状態
を特定することができる。その強調と感じる理由とし
て、 (a)強調部分全体のパワー増大 (b)音の高低差が大きい (c)パワーが増大する (d)楽器の数が変化する (e)曲調、テンポが変化する 等である。
ことにより、発話に限らず音楽の要約も行うことができ
ることになる。平静状態と強調状態の各ラベル区間につ
いて、図17中のステップS1と同様に、音声特徴量を
抽出し(S502)、パラメータを選択する(S50
3)。平静状態と強調状態のラベル区間の、前記パラメ
ータを用いて、LBGアルゴリズムでコードブックを作
成する(S504)。LBGアルゴリズムについては、
例えば、(Y.Linde,A.Buzo and
R.M.Gray,“Analgorithm for
vector quantizer desig
n,”IEEE Trans.Commun.,vo
l.Com−28,pp.84−95,1980)があ
る。コードブックサイズは2のn乗個に可変である。こ
のコードブック作成は音声小段落で又はこれより長い適
当な区間毎あるいは学習音声全体の音声特徴量で規格化
した音声特徴量を用いることが好ましい。
ドブックを用いて、入力音声小段落の音声特徴量を、各
音声特徴量について規格化し、その規格化された音声特
徴量をフレーム毎に照合もしくはベクトル量子化し、フ
レーム毎にコード(量子化された音声特徴量)を得る。
この際の入力音声信号より抽出する音声特徴量は前記の
コードブック作成に用いたパラメータと同じである。強
調状態が含まれる音声小段落を特定するために、音声小
段落でのコードを用いて、発話状態の尤度(らしさ)
を、平静状態と強調状態について求める。このために、
あらかじめ、任意のコード(量子化音声特徴量)の出現
確率を、平静状態の場合と、強調状態の場合について求
めておき、この出現確率とそのコードとを組としてコー
ドブックに格納しておく、以下にこの出現確率の求め方
の例を述べる。前記のコードブック作成に用いた学習音
声中のラベルが与えられた1つの区間(ラベル区間)の
音声特徴量のコード(フレーム毎に得られる)が、時系
列でCi、Cj、Ck、…Cnであるとき、ラベル区間
αが強調状態となる確率をPα(e)、平静状態となる
確率をPα(n)とし、 Pα(e)=Pemp(Ci)Pemp(Cj|Ci)
…Pemp(Cn|Ci…Cn−1)=Pemp(C
i)ΠPemp(Cx|Ci…Cx−1) Pα(n)=Pnrm(Ci)Pnrm(Cj|Ci)
…Pnrm(Cn|Ci…Cn−1)=Pemp(C
i)ΠPnrm(Cx|Ci…Cx−1) となる。ただし、Pemp(Cx|Ci…Cx−1)は
コード列Ci…Cx−1の次にCxが強調状態となる条
件付確率、Pnrm(Cx|Ci…Cx−1)は同様に
Ci…Cx−1に対しCxが平静状態となる確率であ
る。ただし、Πはx=i+1からnまでの積である。ま
たPemp(Ci)は学習音声についてフレームで量子
化し、これらコード中のCiが強調状態とラベリングさ
れた部分に存在した個数を計数し、その計数値を全学習
音声の全コード数(フレーム数)で割り算した値であ
り、Pnrm(Ci)はCiが平静状態とラベリングさ
れた部分に存在した個数を全コード数で割り算した値で
ある。
るために、この例ではN−gramモデル(N<n)を
用いて、 Pα(e)=Pemp(Cn|Cn−N+1…Cn−
1) Pα(n)=Pnrm(Cn|Cn−N+1…Cn−
1) とする。つまりCnよりN−1個の過去のコード列Cn
−N+1…Cn−1の次にCnが強調状態として得られ
る確率をPα(e)とし、同様にN−gramの確率値
をより低次のM−gram(N≧M)の確率値と線形に
補間する線形補間法を適応することが好ましい。例えば
CnよりN−1個の過去のコード列Cn−N+1…Cn
−1の次にCnが平静状態として得られる確率をPα
(n)とする。このようなPα(e)、Pα(n)の条
件付確率をラベリングされた学習音声の量子化コード列
から全てを求めるが、入力音声信号の音声特徴量の量子
化したコード列と対応するものが学習音声から得られて
いない場合もある。そのため、高次(即ちコード列の長
い)の条件付確率を単独出現確率とより低次の条件付出
現確率とを補間して求める。例えばN=3のtrigr
am、N=2のbigram、N=1のunigram
を用いて線形補間法を施す。N−gram、線形補間
法、trigramについては、例えば、「音声言語処
理」(北 研二、中村 哲、永田昌明、森北出版、19
96、29頁)などに述べられている。即ち、 N=3(trigram):Pemp(Cn|Cn−2
Cn−1)、Pnrm(Cn|Cn−2Cn−1) N=2(bigram):Pemp(Cn|Cn−
1)、Pnrm(Cn|Cn−1) N=1(unigram):Pemp(Cn)、Pnr
m(Cn) であり、これら3つの強調状態でのCnの出現確率、ま
た3つの平静状態でのCnの出現確率をそれぞれ用いて
次式により、Pemp(Cn|Cn−2Cn−1)、P
nrm(Cn|Cn−2Cn−1)を計算することにす
る。 Pemp(Cn|Cn−2Cn−1)=λemp1Pemp(Cn|Cn−2Cn −1)+λemp2Pemp(Cn|Cn−1)+λemp3Pemp(Cn) 式(2) Pnrm(Cn|Cn−2Cn−1)=λnrmlPnrm(Cn|Cn−2Cn −1)+λnrm2Pnrm(Cn|Cn−1)+λnrm3Pnrm(Cn) 式(3) Trigramの学習データをNとしたとき、すなわ
ち、コードが時系列でC1、C2、...CNが得られ
たとき、λemp1、λemp2、λemp3の再推定
式は前出の参考文献「音声言語処理」より次のようにな
る。 λemp1=1/NΣ(λemp1Pemp(Cn|C
n−2C−1)/(λemp1Pemp(Cn|Cn−
2C−1)+λemp2Pemp(Cn|C−1)+λ
emp3Pemp(Cn))) λemp2=1/NΣ(λemp2Pemp(Cn|C
−1)/(λemp1Pemp(Cn|Cn−2C−
1)+λemp2Pemp(Cn|C−1)+λemp
3Pemp(Cn))) λemp3=1/NΣ(λemp3Pemp(Cn)/
(λemp1Pemp(Cn|Cn−2C−1)+λe
mp2Pemp(Cn|C−1)+λemp3Pemp
(Cn))) ただし、Σはn=1からNまでの和である。以下同様に
してλnrm1、λnrm2、λnrm3も求められ
る。
αで得たコードがCi1、Ci2、…、CiNαのと
き、このラベル区間αが強調状態となる確率Pα
(e)、平静状態となる確率Pα(n)は、 Pα(e)=Pemp(Ci3|Ci1Ci2)…Pemp(CiNα|Ci( Nα−1)Ci(Nα−2)) 式(4) Pα(n)=Pnrm(Ci3|Ci1Ci2)…Pnrm(CiNα|Ci( Nα−1)Ci(Nα−2)) 式(5) となる。この計算ができるように前記のtrigra
m、unigram、bigramを任意のコードにつ
いて求めてコードブックに格納しておく。つまりコード
ブックには各コードの音声特徴量とその強調状態での出
現確率とこの例では平静状態での出現確率との組が格納
され、その強調状態での出現確率は、その音声特徴量が
過去のフレームでの音声特徴量と無関係に強調状態で出
現する確率(unigram:単独出現確率と記す)の
み、又はこれと、過去のフレームでの音声特徴量から現
在のフレームの音声特徴量に至るフレーム単位の音声特
徴量列毎に、その音声特徴量が強調状態で出現する条件
付確率との組合せの何れかであり、平静状態での出現確
率も同様に、その音声特徴量が過去のフレームでの音声
特徴量と無関係に平静状態で出現する確率(unigr
am:単独出現確率と記す)のみ、又はこれと、過去の
フレームでの音声特徴量から現在のフレームの音声特徴
量に至るフレーム単位の音声特徴量列毎にその音声特徴
量が平静状態で出現する条件付確率と組合せの何れかで
ある。
は各コードC1、C2、…毎にその音声特徴量と、その
単独出現確率が強調状態、平静状態について、また条件
付確率が強調状態、平静状態についてそれぞれ組として
格納されている。図20中のステップS302では、入
力音声小段落の全フレームのコードについてのそのコー
ドブックに格納されている前記確率から、発話状態の尤
度を、平静状態と強調状態について求める。図23に実
施例の模式図を示す。時刻tから始まる音声小段落のう
ち、第4フレームまでを〜で示している。前記のよ
うに、ここでは、フレーム長は100ms、フレームシ
フトを50msとフレーム長の方を長くした。フレー
ム番号f、時刻t〜t+100でコードCiが、フレ
ーム番号f+1、時刻t+50〜t+150でコードC
jが、フレーム番号f+2、時刻t+100〜t+2
00でコードCkが、フレーム番号f+3、時刻t+
150〜t+250でコードClが得られ、つまりフレ
ーム順にコードがCi、Cj、Ck、Clであるとき、
フレーム番号f+2以上のフレームでtrigramが
計算できる。音声小段落sが強調状態となる確率をPs
(e)、平静状態となる確率をPs(n)とすると第4
フレームまでの確率はそれぞれ、 Ps(e)=Pemp(Ck|CiCj)Pemp(Cl|CjCk) 式(6) Ps(n)=Pnrm(Ck|CiCj)Pnrm(Cl|CjCk) 式(7) となる。ただし、この例では、コードブックからCk、
Clの強調状態及び平静状態の各単独出現確率を求め、
またCjの次にCkが強調状態及び平静状態で各出現す
る条件付確率、更にCkがCi、Cjの次に、ClがC
j、Ckの次にそれぞれ強調状態及び平静状態でそれぞ
れ出現する条件付確率をコードブックから求めると、以
下のようになる。 Pemp(Ck|CiCj)=λemp1Pemp(Ck|CiCj)+λem p2Pemp(Ck|Cj)+λemp3Pemp(Ck) 式(8) Pemp(Cl|CjCk)=λemp1Pemp(Cl|CjCk)+λem p2Pemp(Cl|Ck)+λemp3Pemp(Cl) 式(9) Pnrm(Ck|CiCj)=λnrm1Pnrm(Ck|CiCj)+λnr m2Pnrm(Ck|Cj)+λnrm3Pnrm(Ck) 式(10) Pnrm(Cl|CjCk)=λnrm1Pnrm(Cl|CjCk)+λnr m2Pnrm(Cl|Ck)+λnrm3Pnrm(Cl) 式(11) 上記(8)〜(11)式を用いて(6)式と(7)式で
示される第4フレームまでの強調状態となる確率Ps
(e)と、平静状態となる確率Ps(n)が求まる。こ
こで、Pemp(Ck|CiCj)、Pnrm(Ck|
CiCj)はフレーム番号f+2において計算できる。
sで得たコードがCi1、Ci2、…、CiNsのと
き、この音声小段落sが強調状態になる確率Ps(e)
と平静状態になる確率Ps(n)を次式により計算す
る。 Ps(e)=Pemp(Ci3|Ci1Ci2)…Pe
mp(CiNs|Ci(Ns−1)Ci(Ns−2)) Ps(n)=Pnrm(Ci3|Ci1Ci2)…Pn
rm(CiNs|Ci(Ns−1)Ci(Ns−2)) この例ではこれらの確率が、Ps(e)>Ps(n)で
あれば、その音声小段落Sは強調状態、Ps(n)>P
s(e)であれば平静状態とする。
法、音声段落抽出方法、各音声小段落毎に強調状態とな
る確率及び平静状態となる確率を求める方法を用いた音
声強調状態判定装置及び音声要約装置の実施形態を示
す。入力部11に音声強調状態が判定されるべき、又は
音声の要約が検出されるべき入力音声(入力音声信号)
が入力される。入力部11には必要に応じて入力音声信
号をディジタル信号に変換する機能も含まれる。ディジ
タル化された音声信号は必要に応じて記憶部12に格納
される。音声特徴量抽出部13で前述した音声特徴量が
フレーム毎に抽出される。抽出した音声特徴量は必要に
応じて、音声特徴量の平均値で規格化され、量子化部1
4で各フレームの音声特徴量がコードブック15を参照
して量子化され、量子化された音声特徴量は強調確率計
算部16と平静確率計算部17に送り込まれる。コード
ブック15は例えば図22に示したようなものである。
た音声特徴量の強調状態での出現確率が、コードブック
15に格納されている対応する確率を用いて、例えば式
(8)又は(9)により計算される。同様に平静確率計
算部17により、前記量子化された音声特徴量の平静状
態での出現確率がコードブック15に格納されている対
応する確率を用いて、例えば式(10)又は(11)に
より計算される。強調確率計算部16及び平静確率計算
部17で各フレーム毎に算出された強調状態での出現率
と平静状態での出現確率及び各フレームの音声特徴量は
各フレームに付与したフレーム番号と共に記憶部12に格
納する。
とに順次行われる。音声要約装置の実施形態は、図24
中に実線ブロックに対し、破線ブロックが付加される。
つまり記憶部12に格納されている各フレームの音声特
徴量が無音区間判定部21と有音区間判定部22に送り
込まれ、無音区間判定部21により各フレーム毎に無音
区間か否かが判定され、また有音区間判定部22により
各フレーム毎に有声区間か否かが判定される。これらの
無音区間判定結果と有音区間判定結果が音声小段落判定
部23に入力される。音声小段落判定部23はこれら無
音区間判定、有声区間判定に基づき、先の方法の実施形
態で説明したように所定フレーム数を連続する無音区間
に囲まれた有声区間を含む部分が音声小段落と判定す
る。音声小段落判定部23の判定結果は記憶部12に書
き込まれ、記憶部12に格納されている音声データ列に
付記され、無音区間で囲まれたフレーム群に音声小段落
番号列を付与する。これと共に音声小段落判定部23の
判定結果は末尾音声小段落判定部24に入力される。
19を参照して説明した手法により末尾音声小段落が検
出され、末尾音声小段落判定結果が音声段落判定部25
に入力され、音声段落判定部25により2つの末尾音声
小段落間の複数の音声小段落を含む部分を音声段落と判
定する。この音声段落判定結果も記憶部12に書き込ま
れ、記憶部12に記憶している音声小段落番号列に音声
段落列番号を付与する。音声要約装置として動作する場
合、強調確率計算部16及び平静確率計算部17では記
憶部12から各音声小段落を構成する各フレームの強調
確率と平静確率を読み出し、各音声小段落毎の確率が例
えば式(8)及び式(10)により計算される。強調状
態判定部18ではこの音声小段落毎の確率計算値を比較
して、その音声小段落が強調状態か否かを判定し、要約
区間取出し部26では音声段落中の1つの音声小段落で
も強調状態と判定されたものがあればその音声小段落を
含む音声段落を取り出す。各部の制御は制御部19によ
り行われる。
声小段落及び音声段落に分離する方法及び各音声小段落
毎に強調状態となる確率及び平静状態となる確率を算出
できることが理解できよう。以下では上述した各方法を
利用したこの発明による音声処理方法、音声処理装置及
び音声処理プログラムに関わる実施の形態を説明する。
図25にこの発明の音声処理方法の実施の形態の基本手
順を示す。この実施例ではステップS11で音声強調確
率算出処理を実行し、音声小段落の強調確率及び平静確
率を求める。
S12を実行する。この要約条件入力ステップS12で
は例えば利用者に要約時間又は要約率或は圧縮率の入力
を促す情報を提供し、要約時間又は要約率或は要約率又
は圧縮率を入力させる。尚、予め設定された複数の要約
時間又は要約率、圧縮率の中から一つを選択する入力方
法を採ることもできる。ステップS13では抽出条件の
変更を繰り返す動作を実行し、ステップS12の要約条
件入力ステップS12で入力された要約時間又は要約
率、圧縮率を満たす抽出条件を決定する。
する。この要約抽出ステップS14では抽出条件変更ス
テップS13で決定した抽出条件を用いて採用すべき音
声段落を決定し、この採用すべき音声段落の総延長時間
を計算する。ステップ15では要約再生処理を実行し、
要約抽出ステップS14で抽出した音声段落列を再生す
る。図26は図25に示した音声強調確率算出ステップ
の詳細を示す。ステップS101で要約対象とする音声
波形列を音声小段落に分離する。
分離した音声小段落列から音声段落を抽出する。音声段
落とは図19で説明したように、1つ以上の音声小段落
で構成され、意味を理解できる単位である。ステップS
103及びステップS104でステップS101で抽出
した音声小段落毎に図22で説明したコードブックと前
記した式(8)、(10)等を利用して各音声小段落が
強調状態となる確率(以下強調確率と称す)Ps(e)
と、平静状態となる確率(以下平静確率と称す)Ps
(n)とを求める。
びS104において各音声小段落毎に求めた強調確率P
s(e)と平静確率Ps(n)などを各音声小段落毎に
仕分けして記憶手段に音声強調確率テーブルとして格納
する。図27に記憶手段に格納した音声強調確率テーブ
ルの一例を示す。図27に示すF1、F2、F3…は音
声小段落毎に求めた音声小段落強調確率Ps(e)と、
音声小段落平静確率Ps(n)を記録した小段落確率記
憶部を示す。これらの小段落確率記憶部F1、F2、F
3…には各音声小段落Sに付された音声小段落番号i
と、開始時刻(言語列の先頭から計時した時刻)終了時
刻、音声小段落強調確率、音声小段落平静確率、各音声
小段落を構成するフレーム数fn等が格納される。
件としては要約すべきコンテンツの全長を1/X(Xは
正の整数)の時間に要約することを示す要約率X(請求
項1記載の要約率を指す)、あるいは要約時間tを入力
する。この要約条件の設定に対し、抽出条件変更ステッ
プS13では初期値として重み係数WをW=1に設定
し、この重み係数を要約抽出ステップS14に入力す
る。要約抽出ステップS14は重み係数W=1として音
声強調確率テーブルから各音声小段落毎に格納されてい
る強調確率Ps(e)と平静確率Ps(e)とを比較
し、 W・Ps(e)>Ps(n) の関係にある音声小段落を抽出すると共に、更にこの抽
出した音声小段落を一つでも含む音声段落を抽出し、抽
出した音声段落列の総延長時間MT(分)を求める。
(分)と要約条件で決めた所定の要約時間YT(分)と
を比較する。ここでMT≒YT(YTに対するMTの誤
差が例えば±数%程度の範囲)であればそのまま採用し
た音声段落列を要約音声として再生する。要約条件で設
定した要約時間YTに対するコンテンツの要約した総延
長時間MTとの誤差値が規定より大きく、その関係がM
T>YTであれば抽出した音声段落列の総延長時間MT
(分)が、要約条件で定めた要約時間YT(分)より長
いと判定し、図25に示した抽出条件変更ステップS1
3を再実行させる。抽出条件変更ステップS13では重
み係数がW=1で抽出した音声段落列の総延長時間MT
(分)が要約条件で定めた要約時間YT(分)より「長
い」とする判定結果を受けて強調確率Ps(e)に現在
値より小さい重み付け係数W(請求項1記載の所定の係
数の場合は現在値よりも大きくする)を乗算W・Ps
(e)して重み付けを施す。重み係数Wとしては例えば
W=1−0.001×K(Kはループ回数)で求める。
した音声段落列の全ての音声小段落で求められている強
調確率Ps(e)の配列に1回目のループではW=1−
0.001×1で決まる重み係数W=0.999を乗算
し、重み付けを施す。この重み付けされた全ての各音声
小段落の強調確率W・Ps(e)と各音声小段落の平静
確率Ps(n)とを比較し、W・Ps(e)>Ps
(n)の関係にある音声小段落を抽出する。この抽出結
果に従って要約抽出ステップS14では抽出された音声
小段落を含む音声段落を抽出し、要約音声段落列を再び
求める。これと共に、この要約音声段落列の総延長時間
MT(分)を算出し、この総延長時間MT(分)と要約
条件で定められる要約時間YT(分)とを比較する。比
較の結果がMT≒YTであれば、その音声段落列を要約
音声と決定し、再生する。
MT>YTであれば抽出条件変更ステップを、2回目の
ループとして実行させる。このとき重み係数WはW=1
−0.001×2で求める。全ての強調確率Ps(e)
にW=0.998の重み付けを施す。このように、ルー
プの実行を繰り返す毎にこの例では重み係数Wの値を徐
々に小さくするように抽出条件を変更していくことによ
りWPs(e)>Ps(n)の条件を満たす音声小段落
の数を漸次減らすことができる。これにより要約条件を
満たすMT≒YTの状態を検出することができる。
てMT≒YTとしたが、厳密にMT=YTに収束させる
こともできる。この場合には要約条件に例えば5秒不足
している場合、あと1つの音声段落を加えると10秒超
過してしまうが、音声段落から5秒のみ再生することで
利用者の要約条件に一致させることができる。また、こ
の5秒は強調と判定された音声小段落の付近の5秒でも
よいし、音声段落の先頭から5秒でもよい。また、上述
した初期状態でMT<YTと判定された場合は重み係数
Wを現在値よりも小さく例えばW=1−0.001×K
として求め、この重み係数Wを平静確率Ps(n)の配
列に乗算し、平静確率Ps(n)に重み付けを施せばよ
い。また、他の方法としては初期状態でMT>YTと判
定された場合に重み係数を現在値より大きくW=1+
0.001×Kとし、この重み係数Wを平静確率Ps
(n)の配列に乗算してもよい。
出ステップS14で抽出した音声段落列を再生するもの
として説明したが、音声付の画像情報の場合、要約音声
として抽出した音声段落に対応した画像情報を切り出し
てつなぎ合わせ、音声と共に再生することによりテレビ
放送の要約、あるいは映画の要約等を行うことができ
る。また、上述では音声強調確率テーブルに格納した各
音声小段落毎に求めた強調確率又は平静確率のいずれか
一方に直接重み係数Wを乗算して重み付けを施すことを
説明したが、強調状態を精度良く検出するためには重み
係数Wに各音声小段落を構成するフレームの数F乗して
WFとして重み付けを行うことが望ましい。
る条件付の強調確率Ps(e)は各フレーム毎に求めた
強調状態となる確率の積を求めている。また平静状態と
なる確率Ps(n)も各フレーム毎に算出した平静状態
となる確率の積を求めている。従って、例えば強調確率
Ps(e)に重み付けを施すには各フレーム毎に求めた
強調状態となる確率毎に重み付け係数Wを乗算すれば正
しい重み付けを施したことになる。この場合には音声小
段落を構成するフレーム数をFとすれば重み係数WはW
Fとなる。
けの影響が増減され、フレーム数の多い音声小段落ほ
ど、つまり延長時間が長い音声小段落程大きい重みが付
されることになる。但し、単に強調状態を判定するため
の抽出条件を変更すればよいのであれば各フレーム毎に
求めた強調状態となる確率の積又は平静状態となる積に
重み係数Wを乗算するだけでも抽出条件の変更を行うこ
とができる。従って、必ずしも重み付け係数WをWFと
する必要はない。
音声小段落毎に求めた強調確率Ps(e)又は平静確率
Ps(n)に重み付けを施してPs(e)>Ps(n)
を満たす音声小段落の数を変化させる方法を採ったが、
他の方法として全ての音声小段落の強調確率Ps(e)
と平静確率Ps(n)に関してその確率比Ps(e)/
Ps(n)を演算し、この確率比の降順に対応する音声
信号区間(音声小段落)を累積して要約区間の和を算出
し、要約区間の時間の総和が、略所定の要約時間に合致
する場合、そのときの音声信号区間を要約区間と決定し
て要約音声を編成する方法も考えられる。
が要約条件で設定した要約時間に対して過不足が生じた
場合には、強調状態にあると判定するための確率比Ps
(e)/Ps(n)の値を選択する閾値を変更すれば抽
出条件を変更することができる。この抽出条件変更方法
を採る場合には要約条件を満たす要約音声を編成するま
での処理を簡素化することができる利点が得られる。上
述では各音声小段落毎に求める強調確率Ps(e)と平
静確率Ps(n)を各フレーム毎に算出した強調状態と
なる確率の積及び平静状態となる確率の積で算出するも
のとして説明したが、他の方法として各フレーム毎に求
めた強調状態となる確率の平均値を求め、この平均値を
その音声小段落の強調確率Ps(e)及び平静確率Ps
(n)として用いることもできる。
確率Ps(n)の算出方法を採る場合には重み付けに用
いる重み付け係数Wはそのまま強調確率Ps(e)又は
平静確率Ps(n)に乗算すればよい。図28を用いて
要約率を自由に設定することができる音声処理装置の実
施例を示す。この実施例では図24に示した音声強調状
態要約装置の構成に要約条件入力部31と、音声強調確
率テーブル32と、強調小段落抽出部33と、抽出条件
変更部34と、要約区間仮判定部35と、この要約区間
仮判定部35の内部に要約音声の総延長時間を求める総
延長時間算出部35Aと、この総延長時間算出部35A
が算出した要約音声の総延長時間が要約条件入力部31
で入力した要約時間の設定の範囲に入っているか否かを
判定する要約区間決定部35Bと、要約条件に合致した
要約音声を保存し、再生する要約音声保存・再生部35
Cを設けた構成とした点を特徴とするものである。
ーム毎に音声特徴量が求められ、この音声特徴量に従っ
て強調確率計算部16と平静確率計算部17でフレーム
毎に強調確率と、平静確率とを算出し、これら強調確率
と平静確率を各フレームに付与したフレーム番号と共に
記憶部12に格納する。更に、このフレーム列番号に音
声小段落判定部で判定した音声小段落列に付与した音声
小段落列番号が付記され、各フレーム及び音声小段落に
アドレスが付与される。この発明による音声処理装置で
は強調確率算出部16と平静確率算出部17は記憶部1
2に格納している各フレームの強調確率と平静確率を読
み出し、この強調確率及び平静確率から各音声小段落毎
に強調確率Ps(e)と平静確率Ps(n)とを求め、
これら強調確率Ps(e)と平静確率Ps(n)を音声
強調テーブル32に格納する。
ツの音声波形の音声小段落毎に求めた強調確率と平静確
率とが格納され、いつでも利用者の要求に応じて要約が
実行できる体制が整えられている。利用者は要約条件入
力部31に要約条件を入力する。ここで言う要約条件と
は要約したいコンテンツの名称と、そのコンテンツの全
長時間に対する要約率を指す。要約率としてはコンテン
ツの全長を1/10に要約するか、或は時間で10分に
要約するなどの入力方法が考えられる。ここで例えば1
/10と入力した場合は要約時間算出部31Aはコンテ
ンツの全長時間を1/10した時間を算出し、その算出
した要約時間を要約区間仮判定部35の要約区間決定部
35Bに送り込む。
たことを受けて制御部19は要約音声の生成動作を開始
する。その開始の作業としては音声強調テーブル32か
ら利用者が希望したコンテンツの強調確率と平静確率を
読み出す。読み出された強調確率と平静確率を強調小段
落抽出部33に送り込み、強調状態にあると判定される
音声小段落番号を抽出する。強調状態にある音声区間を
抽出するための条件を変更する方法としては上述した強
調確率Ps(e)又は平静確率Ps(n)に確率比の逆
数となる重み付け係数Wを乗算しW・Ps(e)>Ps
(n)の関係にある音声小段落を抽出し、音声小段落を
含む音声段落により要約音声を得る方法と、確率比Ps
(e)/Ps(n)を算出し、この確率比を降順に累算
して要約時間を得る方法とを用いることができる。
抽出条件を変更する場合には重み付け係数WをW=1と
して初期値とすることが考えられる。また、各音声小段
落毎に求めた強調確率Ps(e)と平静確率Ps(n)
の確率比Ps(e)/Ps(n)の値に応じて強調状態
と判定する場合は初期値としてその比の値が例えばPs
(e)/Ps(n)≧1である場合を強調状態と判定す
ることが考えられる。この初期設定状態で強調状態と判
定された音声小段落番号と開始時刻、終了時刻を表わす
データを強調小段落抽出部33から要約区間仮判定部3
5に送り込む。要約区間仮判定部35では強調状態と判
定した強調小段落番号を含む音声段落を記憶部12に格
納している音声段落列から検索し、抽出する。抽出した
音声段落列の総延長時間を総延長時間算出部35Aで算
出し、その総延長時間と要約条件で入力された要約時間
とを要約区間決定部35Bで比較する。比較の結果が要
約条件を満たしていれば、その音声段落列を要約音声保
存・再生部35Cで保存し、再生する。この再生動作は
強調小段落抽出部33で強調状態と判定された音声小段
落の番号から音声段落を抽出し、その音声段落の開始時
刻と終了時刻の指定により各コンテンツの音声データ或
は映像データを読み出して要約音声及び要約映像データ
として送出する。
ていないと判定した場合は、要約区間決定部35Bから
抽出条件変更部34に抽出条件の変更指令を出力し、抽
出条件変更部34に抽出条件の変更を行わせる。抽出条
件変更部34は抽出条件の変更を行い、その抽出条件を
強調小段落抽出部33に入力する。強調小段落抽出部3
3は抽出条件変更部34から入力された抽出条件に従っ
て再び音声強調確率テーブル32に格納されている各音
声小段落の強調確率と平静確率との比較判定を行う。
約区間仮判定部35に送り込まれ、強調状態と判定され
た音声小段落を含む音声段落の抽出を行わせる。この抽
出された音声段落の総延長時間を算出し、その算出結果
が要約条件を満たすか否かを要約区間決定部35Bで行
う。この動作が要約条件を満たすまで繰り返され、要約
条件が満たされた音声段落列が要約音声及び要約映像デ
ータとして記憶部12から読み出されユーザ端末に配信
される。以上により音声波形を音声小段落及び音声段落
に分離する方法及び各音声小段落毎に強調状態となる確
率及び平静状態となる確率を算出できること及び音声の
要約率を自由に変更して任意の長さの要約音声を得るこ
とができることが理解できよう。
時刻を要約区間と判定した音声段落列の開始時刻及び終
了時刻として取り出すことを説明したが、映像付のコン
テンツの場合は要約区間と判定した音声段落列の開始時
刻と終了時刻に接近した映像信号のカット点を例えば特
開平8−32924号公報記載の手段で検出し、このカ
ット点(画面の切替わりに発生する信号を利用する)の
時刻で要約区間の開始時刻及び終了時刻を規定する方法
も考えられる。このように映像信号のカット点を要約区
間の開始時刻及び終了時刻に利用した場合は、要約区間
の切替わりが画像の切替わりに同期するため、視覚上で
視認性が高まり要約の理解度を向上できる利点が得られ
る。
明による要約情報提供方法、要約情報提供装置及びその
プログラムに関わる実施の形態を説明する。 [実施例1]これより、実施例1として、たとえば、卒
業予定の学生の採用や、派遣社員の採用、アルバイト・
パート勤務採用などの人材発掘システムにこの発明によ
る要約情報提供方法を適用した実施例を述べる。図1
に、この発明の実施例1を示す。この発明による要約情
報提供装置は属性情報として応募者等の個人情報とその
映像付音声信号を入力する求職者登録部100と、ネッ
トワーク200と、データセンタ300と、このデータ
センタ300の出力側に設けられた出力部309と、採
用者発掘部400と、課金部500とによって構成され
る。求職者登録部100で求職者は求職者であることを
登録する。登録データはネットワーク200を経由し
て、データセンタ300に送り込まれ、他の属性情報と
共にデータベースに蓄積される。
て採用条件情報を入力し、希望属性情報を満足する属性
情報をもつ応募者の映像付音声信号の要約部分をデータ
センタ300から受信し、これを再生した映像乃至音声
を採用者が視聴することによって求職者を選択する手が
かりとする。課金部500はデータセンタ300におい
て採用者へのデータ提供、求職者からのデータ入力等の
処理に伴い課金処理を行う。例えば、データセンタから
各処理に応じた課金要求信号を受けて各利用者金融口座
における金融残高から各処理に対する対価相当分を控除
したり、データ管理者の金融口座における金融残高に利
用手数料相当分を加算する。
示す。求職者登録部100は、個人情報登録部101、
映像撮影部102、保存記録部103、データセンタ送
信部104とから構成される。個人情報登録部101で
求職者個人の属性情報を入力する。入力に用いる端末は
パーソナルコンピュータ、情報を入出力可能な家電製
品、携帯電話のいずれでもよい。図3は、個人情報登録
画面の典型的な例である。たとえば、ステップSI10
1−1で求職者の名前を入力し、ステップSI101−
2で年齢を入力し、ステップSI101−3で住所を入
力し、ステップSI101−4で電話番号を入力し、ス
テップSI101−5で希望する職種を選択し、ステッ
プSI101−6で希望就業日数/週を選択し、ステッ
プSI101−7で就業形態を選択し、ステップSI1
01−8で希望年収を選択し、ステップSI101−9
で学歴を入力し、ステップSI101−10で免許など
を入力する。前記ステップSI101−1からステップ
SI101−10は全て選択式でもよく、記述入力式で
もよい。
は、任意であり、その内容に関しては後記するデータセ
ンタ300の運営者が設定してもよく、また採用者発掘
部400が設定してもよい。また、全て求職者の自由な
表記にしてもよい。図4は、図2に示した映像撮影部1
02では映像信号と音声信号を同時に撮影して求職者本
人のPR画像として取得する。図4Aは撮影機102−
1で、自己PRを録画する様子を示す。撮影機102−
1は、市販のビデオカメラでも、パーソナルコンピュー
タや、携帯電話に付属した動画撮影可能なカメラでもよ
い。また、ディジタルで録画していても、アナログで録
画していてもよく、ディジタル化されている場合、圧縮
されているか否かはいずれでもよく、圧縮されていた場
合、その圧縮形式はいずれのものでもよい。
て自己PRを行なっている様子を示す。自己PRで使用
する項目は、たとえば、学歴、職歴などは、後記するデ
ータセンタ300の運用者が設定してもよく、採用者が
設定してもよい。また、全て求職者の自由な表記にして
もよい。図5にデータセンタ300の運用者、もしくは
採用者が設定した場合の自己PR用の項目を挙げる。た
とえば、求職者は各項目をPRする際、「私の名前は
…」のように項目名を発言するなどのルールを決めても
よく、また各項目毎に撮影するなどのルールを設定し
て、各項目のPR開始時刻を、たとえば映像の切り替わ
りで示してもよく、あるいは、前記ルールを一切決めな
くてもよい。
ルコンピュータなどに撮像データをディジタル化してフ
ァイルとして保存する。この時、ディジタル化したファ
イルは圧縮されているか否かはいずれでもよく、圧縮す
る場合においても、いずれの圧縮形式でもよい。データ
センタ送信部104(図2)は、前記個人情報登録部1
01で登録した個人情報と保存記録部103で保存した
自己PR映像を後記するデータセンタ300へ送信す
る。送信方法としてはたとえば、ディジタル化された自
己PR映像ファイルをネットワーク200を経由してデ
ータセンタ300へ送信してもよい。ただし、データセ
ンタ300で自己PRビデオをディジタル化する場合、
前記保存記録部103におけるディジタル化して保存す
る手続きは不必要である。
AN、電話回線、BS、CS、CATVのいずれでもよ
い。たとえば、インターネットプロバイダーなどのネッ
トワーク仲介者が運用したものでよい。図6はデータセ
ンタ300の構成の一例を示す。データセンタ300は
求職者データ入力部301、求職者個人情報データベー
ス302と、自己PR音声映像データベース303と、
採用条件入力部304と、検索部305と、自己PR音
声映像要約部306と、自己PR音声映像配信部307
と、採用者評価部308と、連絡部309とから構成さ
れる。
センタ送信部104(図2)から送信された求職者の属
性情報と自己PR音声映像ファイルを入力し、求職者個
人情報データベース302と自己PR音声映像データベ
ース303に保存する。採用条件入力部304は、採用
者からの希望属性情報となる採用条件項目を入力する。
図7に、希望属性情報となる採用条件項目の例を示す。
たとえば、採用者は採用の条件として、学歴や業務経験
などを指定する。採用条件項目は、何らかのフォーマッ
トにしたがってたとえばパーソナルコンピュータで作成
してもよく、マウスなどの機器を用いて選択する方法で
あってもよい。入力はたとえば、インターネットのホー
ムページから入力するものでもよい。検索部305は求
職者個人情報データベース302から、採用条件入力部
304で採用者から入力された希望属性情報と一致する
属性情報を検索する。希望属性情報と一致する属性情報
がない場合、最も希望属性情報に近い属性情報を検索す
る。自己PR音声映像要約部306は検索部305で検
索した属性情報に該当する自己PRビデオを要約する。
例を示す。自己PR音声映像要約部306は要約条件入
力部306−1と、自己PR音声映像入力部306−2
と、映像・音声分離部306−3と、自己PR項目検出
部306−4と、カット点抽出部306−5と、音声認
識部306−6と、音声映像要約部306−8と、映像
編集部306−9とによって構成される。要約条件入力
部306−1は、たとえば、採用者が入力した希望属性
情報を採用者発掘部400に相当する端末からネットワ
ーク200を介して入力するか又はデータセンタ300
の運用者が設定することができる。入力は例えばパーソ
ナルコンピュータ上の画面にて行うことができる。
て、典型的な例を示す。要約条件としては一人あたりの
自己PR映像の視聴を、視聴時間で設定するか又は映像
のシーン数で設定するかを選択する。図9に示す例で
は、ステップSI306−1−1を選択しており、左の
丸印がチェックされている。視聴時間を選択した場合、
ステップSI306−1−2で、採用者の希望する視聴
時間を要約時間として入力して各求職者当たり略この視
聴時間に自己PR映像を要約することになる。図9で
は、30秒に設定している。尚、視聴シーン数を選択し
た場合はステップSI306−1−4で、採用者の希望
するシーン数を入力する。
R音声映像データベース303から検索部305で検索
された人材の自己PR映像を入力し、映像・音声分離部
306−3で映像から音声を分離する。ただし、元の自
己PR映像は音声付のまま保存しておき、分離した音声
をたとえば、ハードディスクやコンピュータのメモリ上
に保存しておく。後記する音声処理を施す場合は、映像
・音声分離部306−3で分離した音声を用いる。また
映像処理を施す場合は音声付の自己PR映像を用いる。
R項目を検出する。自己PR映像のPR項目があらかじ
めデータセンタ300の運用者や採用者が設定している
場合、前記のように、求職者がPR項目毎に撮影し一旦
撮影機の録画を停止することでその前後のフレーム間で
の映像情報の差が著しくなり、映像にカット点が出現す
る。カット点抽出部306−5ではこのカット点を利用
して各PRの開始時刻と終了時刻を得ることができる。
また、求職者がデータセンタ300に登録する際に、P
R項目ごとに自己PR映像ファイルを作成しておいても
よい。また、各PR項目の開始にあたって、たとえば、
図5の7番目のPR項目において求職者が「これからの
仕事で一番してみたいことは…」と発話することで、音
声認識部306−7で各PRの開始時刻と終了時刻を得
ることができる。
国特開平8−6588号などに示されている。音声映像
要約部306−8は、上述した強調状態判定手段により
発話の強調状態を検出し、聴取して意味の理解できる単
位としての音声段落を抽出し、強調を含む音声段落をつ
なぎ合わせて先に説明した方法により要約音声を生成す
る。これと共に、要約音声区間に対応する映像を切り出
して要約映像情報を得る。図10は自己PR映像要約の
手段の模式図である。ステップSI306−8−1で上
述した強調確率を時系列で求め、ステップSI306−
8−2で音声段落を抽出する。ステップSI306−8
−3で抽出した音声段落が強調を含む音声段落である場
合、対応するステップSI306−8−4の自己PR映
像を、自己PR要約映像に用いる候補とする。要約条件
入力部306−1(図8)で設定された要約条件につい
て、たとえば、図9で示した自己PR視聴時間を一人当
り30秒で再生する条件の場合の、自己PR映像要約方
法について、図11に示す。以下にその実施例について
述べる。
間を含む音声段落区間を抽出する。音声段落の各々の強
調確率からステップSI306−8−6で、音声段落毎
に求められる強調確率もしくは強調確率の平静状態であ
る確率に対する確率比の降順に強調の順位を定める。ス
テップSI306−8−7では自己PR視聴時間を例え
ば一人当り30秒で作成するために、定められた強調の
順位ごとに音声段落毎の再生時間を累積し、与えられた
視聴時間(この場合30秒)に最も近似するように音声
段落の数を決定する。図11に示す例では、ステップS
I306−8−6で付与した強調の順位に従い、3つの
音声段落(可と判定した音声段落)をつなぎ合わせた場
合に、30秒の自己PR要約映像となる例である。ステ
ップSI306−8−8で、前記ステップSI306−
8−7で可と判定した3つの音声段落について、再生順
序を決める。たとえば、ステップ306−8−8に示す
ように時系列に再生すればよく、また、前記ステップS
I306−8−6で付与した強調の順位にしたがって再
生してもよい。ステップSI306−8−9で自己PR
要約映像を作成する。自己PR要約映像は、ステップS
I306−8−8で決定した再生順序に従って音声段落
をつなぎ合わせて生成される。
照)は自己PR映像要約部306で作成した自己PR要
約音声映像と個人情報を含む属性情報を採用者発掘部4
00へ送信する。採用者発掘部400が自己PR音声映
像配信部307から受信した求職者の自己PR要約音声
映像を視聴した後、(求職者の映像を視聴して)採用者
の評価情報を入力し、データセンタ300の採用者評価
受信部308に送信する。ここで得た採用者の評価を必
要に応じて求職者登録部100である求職者端末に送信
する。
するための流れ図を示す。ステップSI402で採用者
が採用条件を入力する。たとえば、図7のような項目に
ついて条件を入力する。ステップSI403で自己PR
映像要約条件を入力する。たとえば、図9のように入力
する。ステップSI404で自己PR要約映像を視聴
し、ステップSI405で再度自己PR要約映像を視聴
するか否かを示す情報を入力する。再度自己PR要約映
像を視聴する場合、ステップSI406で前記ステップ
SI402の採用条件と同じであるかを示す情報を入力
し、同じでない場合、ステップSI402の採用条件を
入力しなおす。ステップSI402の採用条件と同じ場
合、ステップSI407で自己PR要約条件は同じであ
るかを示す情報を入力し、同じでない場合ステップSI
403の自己PR映像要約条件を入力しなおす。
聴し、求職者の採用に前向きに検討する場合などに、2
度目以降は60秒の自己PR要約映像を視聴するなどの
利用法がある。ステップSI405で再度自己PR要約
映像の視聴を希望しない場合、ステップSI408で自
己PR映像を視聴するかを示す情報を入力し、要約でな
くもとの自己PR映像を視聴する場合、ステップSI4
09で自己PR映像を視聴し、ステップSI410で再
度自己PR映像を視聴するかを示す情報を入力し、再度
視聴する場合は、ステップSI409へ、視聴しない場
合は、ステップSI411で求職者と面接するか否かを
示す情報を入力する。
を希望しない場合も同様にステップSI411で求職者
と面接するか否かを示す情報を入力する。面接を希望す
る場合、ステップSI412で求職者の端末に面接希望
を示す情報を送信する。ここで面接とは、たとえば、求
職者連絡部309(図6参照)から求職者に連絡し、場
所を設定して採用者と求職者が面接してもよく、また、
採用者から直接求職者へ連絡して面接場所を決定しても
よい。また、直接面接を行わず、インターネット電話な
どのネット家電装置を用いて面接を行ってもよい。
望しない場合、ステップSI413で求職者を採用する
かを示す情報を入力する。採用を決定する場合もステッ
プSI412で求職者の端末へ決定情報を送信して連絡
する。採用を決定しない場合、ステップSI414で採
用を保留することを示す情報を入力する。後程検討する
か選択する。後ほど選択することを示す信号を入力した
場合、ステップSI415で求職者を採用することを示
す情報を保持し、保留しないことを示す情報を入力した
場合、求職者端末に不採用を示す情報を送信する。ステ
ップSI416で採用保留者以外、まだ自己PR要約映
像を一度も見ていない求職者の自己PR要約映像を視聴
するかを示す情報を入力する。ステップSI412で求
職者の端末に面接希望を示す情報を送信した後同様にス
テップSI416で求職者の自己PR要約映像を視聴す
るかを示す情報を入力する。また、ステップSI415
で求職者を採用保留にした後も同様にステップSI41
6で自己PR要約映像を視聴するかを示す情報を入力す
る。
プSI406を実行し、以降のステップを繰り返す。ス
テップSI416で別の求職者の視聴を希望しない情報
を入力する場合、ステップSI417で保留した求職者
の自己PR要約映像を視聴するかを示す情報を入力しス
テップSI406の選択を行う。前記を繰り返すことに
より、採用者の希望する求職者を決定し、ステップSI
418で終了する。図14は課金部500を構成するコ
ンピュータで実行される課金のための手順を示す。課金
手順は求職者登録料課金ステップSI501と、利用者
登録料課金ステップSI502と、自己PR要約映像視
聴料課金ステップSI503と、自己PR映像視聴料課
金ステップSI504と、仲介料課金ステップSI50
5とからなり、前記いずれか一つでも当てはまれば成立
する。
は求職者が求職のためにデータセンタに登録する際に登
録料金を課金処理する。つまり、この課金処理は例えば
求職者金融口座における金融残高から登録料金相当分を
控除し、データ管理者の金融口座における金融残高に登
録処理手数料相当分を加算する手順で実行される。登録
料としては例えば年間登録料3000円などと設定し、
その期間中求職者はデータセンタ300に個人情報、自
己PR映像などを登録することができる。採用者登録料
課金ステップSI502では採用者が採用のためにデー
タセンタに登録する料金を課金処理する。この課金処理
は、例えば採用者金融口座における金融残高から登録の
ための料金相当分を控除し、データ管理者の金融口座に
おける金融残高に登録処理手数料相当分を加算する手順
で実行される。
録料10000円などと設定し、その期間中採用者はデ
ータセンタ300に登録してある求職者情報と、求職者
の自己PR映像を視聴することができる。自己PR要約
映像視聴料課金ステップSI503では採用者が視聴し
た求職者人数や、自己PR要約映像の視聴時間に応じて
課金処理する。この課金処理も、例えば採用者金融口座
における金融残高から視聴人数又は視聴時間に対応した
利用料金相当分を控除し、データ管理者の金融口座にお
ける金融残高に利用手数料相当分を加算する手順で実行
される。利用料金としては例えば、(100円/求職
者)という料金を設定してもよい。あるいは、(100
0円/1時間)と設定してもよい。また、求職者の自己
PR要約映像を採用者が視聴する毎にその視聴料金を例
えば(100円/採用者)と設定し、求職者の金融口座
からその視聴料金相当分を控除してもよい。
4では採用者が自己PR映像を視聴した場合、採用者が
視聴した求職者人数や、自己PR映像の視聴時間に応じ
た利用料金相当分を採用者に課金処理する。この課金処
理は採用者の金融口座の残高データから利用料金相当分
データを控除し、その利用料金相当分データをデータ管
理者の金融口座の残高に加算する手順で実行する。自己
PR映像の利用料金としては例えば(1000円/求職
者)と設定することができる。または(1000円/1
時間)に設定してもよい。また、自己PR要約映像を採
用者が視聴する際に(1000円/採用者)と設定し、
この場合には自己PR要約映像を視聴された求職者に視
聴した採用者の人数分の利用料金を課金してもよい。
に示したステップSI412の求職者へ連絡する場合に
課金し、たとえば、面接1回につき1000円を採用者
に課金するなどする。あるいは、採用が決定する毎に1
0000円を採用者に課金する、または10000円を
求職者への課金処理を行う形態であってもよい。この結
果から明らかな様に、従来の技術に比べて、音声要約技
術を用いることで、自己PR映像の要約が可能となる改
善があった。また、採用者の希望する時間やシーン数で
自己PR要約映像を視聴することが可能となり、採用者
の採用活動の稼動を軽減する改善があった。また、採用
者は希望する求職者の映像を任意に視聴することが可能
となり、求職者の映像を採用者に強く印象付けることが
可能となり、採用活動の効率化が出来る改善があった。
また、求職者は自己PR映像を採用者に視聴され、テキ
スト情報以外に自己アピールを行うことが可能となり、
テキスト情報に依存しない求職活動が出来る改善があっ
た。 [実施例2]実施例1の応用としてこれより実施例2に
ついて図15及び図16を用いて説明する。
と、自己PR映像入力部306−2と、映像・音声分離
部306−3と、自己PR項目検出部306−4と、カ
ット点抽出部306−5と、音声認識部306−6と、
音声要約部306−8は図8に示したものに同じであ
る。この実施例2では音声要約部306−8の処理の後
に、音声キーワード抽出部306−9と、表情抽出部3
06−10と、映像編集部308−11の処理を施す点
と、音声認識部306−6における音声認識処理の後に
テキスト要約部306−12の処理を施す手順とした点
を特徴とするものである。
れる音声キーワード抽出ステップでは発話された言葉の
中から繰り返し強調されて発せられる単語らしさを示す
確率(キーワード尤度)を求める。キーワード抽出につ
いては、たとえば、「標準パターンの任意区間によるス
ポッティングのためのReference Interval-free連続DP
(RIFCDP)」(伊藤 慶明、木下 次郎、小島 浩、関
進、岡 隆一、信学技報、SP95−34、1995−
06)などに示されている。表情抽出部306−10で
実行される表情抽出方法については、たとえば特開平1
1−232456号公報などに示されている方法を利用
できる。無表情を基準とした時の、基本表情(怒り、嫌
悪、恐れ、悲しみ、幸福、驚き)らしさを示す確率(基
本表情尤度)の時系列を求める。
06−8で得た強調状態と判定された音声段落区間情報
に加えて、キーワード抽出部306−9で得たキーワー
ド尤度が所定の第1の閾値以上の映像区間または基本表
情尤度が所定の第2の閾値以上の映像区間を要約区間と
して抽出し、この要約区間を自己PR要約映像としても
よい。図16に実施例2の自己PR要約映像作成方法の
模式図を示す。ステップSII306−11−1は強調を
含む音声段落区間を、ステップSII306−11−2で
強調確率を、ステップSII306−1−3はキーワード
尤度を、ステップSII306−11−4は基本表情尤度
をそれぞれ求めている。
SII306−11−3、ステップSII306−11−4
で求めた確率を、乗じて確率値を求め、この確率値に基
づいてステップSII306−11−1で求めた強調状態
と判定された音声段落区間から要約区間を更に抽出す
る。例えば、確率値が所定の閾値よりも大きい区間を要
約区間と決定し、順次つなぎ合わせて自己PR要約映像
を生成してもよい。確率値の乗算においては、前記3つ
の確率を各々異なる寄与率で重み付けしてもよい。たと
えば、強調確率の効果を大きく、基本表情尤度の効果を
小さくするなどして重み付けを行なってもよい。
の技術に比べて、キーワード尤度を用いることで、自己
PR要約映像に、求職者の言いまわし癖が含まれ、ま
た、求職に対する求職者のキーポイントを含む自己PR
要約映像を作成することが可能となる改善があった。ま
た、基本表情尤度を用いることで、映像情報にのみ含ま
れる求職者の表情を含んだ自己PR要約映像を作成する
ことが可能となり、採用者が求職者特有の表情を採用の
評価に加えることが可能となる改善があった。以上説明
したこの発明による要約情報提供方法はデータセンタ3
00を構成する計算機により本発明の要約情報提供プロ
グラムを実行して実現できる。ここで当該プログラムを
通信回線を介してダウンロードしたり、CD−ROMや
磁気ディスク等の記憶媒体からCPUのような処理手段
にインストールして実行される。
に比べて、音声要約技術を用いることで、自己PR映像
の要約の自動化が可能となる効果がある。また、採用者
の希望する時間やシーン数で自己PR要約映像を視聴す
ることが可能となり、採用者の採用活動の稼動を軽減す
る効果がある。また、採用者は希望する求職者の映像を
任意に視聴することが可能となり、求職者の映像を採用
者に強く印象付けることが可能となり、採用活動の効率
化が行える効果がある。また、求職者は自己PR映像を
採用者に視聴され、テキスト情報以外に自己アピールを
行うことが可能となり、テキスト情報に依存しない求職
活動が出来る効果がある。
を用いることで、自己PR要約映像に、求職者の言いま
わしや癖が含まれ、また、求職に対する求職者のキーポ
イントを含む自己PR要約映像を作成することが可能と
なる効果があった。また、基本表情尤度を用いること
で、映像情報にのみ含まれる求職者の表情を含んだ自己
PR要約映像を作成することが可能となり、採用者が求
職者特有の表情を採用の評価に加えることが可能となる
効果が得られる。
成を説明するためのブロック図。
めのブロック図。
報を登録する手順を説明するための流れ図。
明するための図。
際の、PRする項目の例を示す図。
するためのブロック図。
する例を示す図。
一例を説明するためのブロック図。
する例を示す図。
るための流れ図。
めの流れ図。
に、自己PR項目のテロップを入力する例を示す流れ
図。
採用を決定するまでの手順の例を示す流れ図。
例を示す流れ図。
図。
R要約音声映像を生成する例を説明するための流れ図。
フローチャート。
ためのフローチャート。
の図。
声小段落の発話状態を判定する方法の例を示すフローチ
ャート。
ドブックを作成する手順の例を示すフローチャート。
記憶例を示す例。
要約装置の一実施例を説明するためのブロック図。
法を説明するためのフローチャート。
各音声小段落の強調確率算出動作、音声小段落平静確率
抽出動作を説明するためのフローチャート。
の構成を説明するための図。
約装置の一例を説明するためのブロック図。
Claims (5)
- 【請求項1】 項目別に映像信号と同時に収録された音
声信号と該音声信号の属性情報とを対応付けて蓄積する
データ蓄積手段と、 少なくとも基本周波数又はピッチ周期、パワー、動的特
徴量の時間変化特性、又はこれらのフレーム間差分を含
む特徴量と強調状態での出現確率とを対応して格納した
符号帳とを用い、 希望属性情報を入力し、前記希望属性情報で示される条
件を満足する属性情報と該属性情報に対応する項目別の
映像信号と音声信号を前記データ蓄積手段から読み出
し、 前記音声信号をフレーム毎に分析した前記特徴量に対応
する強調状態での出現確率を求め、 前記強調状態での出現確率に基づいて強調状態となる確
率を算出し、 前記強調状態となる確率が所定の確率よりも大きい音声
信号区間を要約区間と判定し、 前記要約区間の映像信号と前記読み出された属性情報の
少なくとも一部を出力することを特徴とする要約情報提
供方法。 - 【請求項2】 前記要約区間は、前記符号帳が少なくと
も基本周波数又はピッチ周期、パワー、動的特徴量の時
間変化特性、又はこれらのフレーム間差分を含む特徴量
と強調状態での出現確率に対応して平静状態での出現確
率が格納され、 前記音声信号をフレーム毎に分析した前記特徴量に対応
する平静状態での出現確率を求め、 前記平静状態での出現確率に基づいて平静状態となる確
率を算出し、 前記強調状態となる確率の前記平静状態となる確率に対
する確率比を音声信号区間ごとに算出し、 前記確率比の降順に対応する音声信号区間の時間を累積
して要約区間の時間の総和を算出し、 前記要約区間の時間の総和が所定の要約時間となる音声
信号区間を要約区間と決定することを特徴とする請求項
1記載の要約情報提供方法。 - 【請求項3】 前記音声信号をフレームごとに無音区間
か否か、有声区間か否か判定し、 所定フレーム数以上の無音区間で囲まれ、有声区間を含
む部分を音声小段落と判定し、 音声小段落に含まれる有声区間の平均パワーが該音声小
段落内の平均パワーの所定の定数倍より小さい音声小段
落を末尾とする音声小段落群を音声段落と判定し、 前記音声信号区間は音声段落ごとに定められたものであ
り、 前記要約時間を音声段落ごとに累積して求め、 前記強調状態の確率又は前記確率比の降順に音声段落ご
とに前記要約区間の映像信号と音声信号を出力すること
を特徴とする請求項1又は2の何れかに記載の要約情報
提供方法。 - 【請求項4】 項目別に映像信号と同時に収録された音
声信号と、該音声信号の属性情報とを対応付けて蓄積す
るデータ蓄積手段と、 少なくとも基本周波数又はピッチ周期、パワー、動的特
徴量の時間変化特性、又はこれらのフレーム間差分を含
む特徴量と強調状態での出現確率とを対応付けて格納し
た符号帳とを用い、 希望属性情報を入力し、前記希望属性情報で示される条
件を満足する属性情報と該属性情報に対応する項目別の
映像信号と音声信号を前記データ蓄積手段から読み出
し、前記音声信号をフレーム毎に分析した前記特徴量に
対応する強調状態での出現確率を求め前記強調状態での
出現確率に基づいて強調状態となる確率を算出する強調
状態確率計算部と、 前記強調状態となる確率が所定の確率より大きい音声信
号区間を要約区間と判定する要約区間決定部と、 前記要約区間の映像信号と前記読み出された属性情報の
少なくとも一部を出力する出力部とを具備していること
を特徴とする要約情報提供装置。 - 【請求項5】 コンピュータが読取り可能な符号によっ
て記述され、前記請求項1乃至4記載の要約情報提供方
法の何れかをコンピュータ上で実行することを特徴とす
る要約情報提供プログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002058447A JP3803301B2 (ja) | 2002-03-05 | 2002-03-05 | 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002058447A JP3803301B2 (ja) | 2002-03-05 | 2002-03-05 | 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2003255981A true JP2003255981A (ja) | 2003-09-10 |
| JP3803301B2 JP3803301B2 (ja) | 2006-08-02 |
Family
ID=28668416
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2002058447A Expired - Lifetime JP3803301B2 (ja) | 2002-03-05 | 2002-03-05 | 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3803301B2 (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017163181A (ja) * | 2016-03-07 | 2017-09-14 | 富士ゼロックス株式会社 | 動画編集装置およびプログラム |
| JP2023005038A (ja) * | 2021-06-28 | 2023-01-18 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 動画要約装置、動画要約方法、及びプログラム |
| WO2024043444A1 (ko) * | 2022-08-24 | 2024-02-29 | 삼성전자주식회사 | 조리 기기 및 조리 기기의 제어 방법 |
| WO2025079685A1 (ja) * | 2023-10-12 | 2025-04-17 | 株式会社リクルート | 求人求職支援システム、求人求職支援方法およびプログラム |
-
2002
- 2002-03-05 JP JP2002058447A patent/JP3803301B2/ja not_active Expired - Lifetime
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017163181A (ja) * | 2016-03-07 | 2017-09-14 | 富士ゼロックス株式会社 | 動画編集装置およびプログラム |
| JP2023005038A (ja) * | 2021-06-28 | 2023-01-18 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 動画要約装置、動画要約方法、及びプログラム |
| JP7369739B2 (ja) | 2021-06-28 | 2023-10-26 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 動画要約装置、動画要約方法、及びプログラム |
| WO2024043444A1 (ko) * | 2022-08-24 | 2024-02-29 | 삼성전자주식회사 | 조리 기기 및 조리 기기의 제어 방법 |
| WO2025079685A1 (ja) * | 2023-10-12 | 2025-04-17 | 株式会社リクルート | 求人求職支援システム、求人求職支援方法およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3803301B2 (ja) | 2006-08-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3621686B2 (ja) | データ編集方法、データ編集装置、データ編集プログラム | |
| EP1288911B1 (en) | Emphasis detection for automatic speech summary | |
| US10580457B2 (en) | Efficient audio description systems and methods | |
| CN100394438C (zh) | 信息处理装置及其方法 | |
| US10334384B2 (en) | Scheduling playback of audio in a virtual acoustic space | |
| US7788095B2 (en) | Method and apparatus for fast search in call-center monitoring | |
| US7523036B2 (en) | Text-to-speech synthesis system | |
| US20080273674A1 (en) | Computer generated prompting | |
| US12086558B2 (en) | Systems and methods for generating multi-language media content with automatic selection of matching voices | |
| CN114286169A (zh) | 视频生成方法、装置、终端、服务器及存储介质 | |
| US7177800B2 (en) | Method and device for the processing of speech information | |
| US11687576B1 (en) | Summarizing content of live media programs | |
| JP4192703B2 (ja) | コンテンツ処理装置、コンテンツ処理方法及びプログラム | |
| JP2003255992A (ja) | 対話システムおよびその制御方法 | |
| CN113823300A (zh) | 语音处理方法及装置、存储介质、电子设备 | |
| CN114078464B (zh) | 音频处理方法、装置及设备 | |
| JP3437617B2 (ja) | 時系列データ記録再生装置 | |
| JP2006507530A (ja) | 音声認識装置及び方法 | |
| JP2003288096A (ja) | コンテンツ情報配信方法、コンテンツ情報配信装置、コンテンツ情報配信プログラム | |
| KR20200145776A (ko) | 음성보정 합성방법, 장치 및 프로그램 | |
| JP3803301B2 (ja) | 要約区間判定方法、要約情報提供方法、それらの方法を用いた装置、およびプログラム | |
| US20250371875A1 (en) | Automated audio description system and method | |
| JP3803302B2 (ja) | 映像要約装置 | |
| CN119446137B (zh) | 语音交互方法、装置、电子设备及计算机可读存储介质 | |
| JP2006279111A (ja) | 情報処理装置、情報処理方法およびプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040317 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050719 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050802 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050929 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050929 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051129 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060118 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060418 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060502 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3803301 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090512 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100512 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100512 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110512 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120512 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130512 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140512 Year of fee payment: 8 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| EXPY | Cancellation because of completion of term |