JPH10143193A - 音声信号処理装置 - Google Patents

音声信号処理装置

Info

Publication number
JPH10143193A
JPH10143193A JP8296104A JP29610496A JPH10143193A JP H10143193 A JPH10143193 A JP H10143193A JP 8296104 A JP8296104 A JP 8296104A JP 29610496 A JP29610496 A JP 29610496A JP H10143193 A JPH10143193 A JP H10143193A
Authority
JP
Japan
Prior art keywords
audio
audio signal
voice
temporary buffer
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8296104A
Other languages
English (en)
Inventor
Sachihiro Yamashita
祥宏 山下
Shoichi Goto
昌一 後藤
Shuhei Taniguchi
周平 谷口
Atsushi Ishizu
厚 石津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP8296104A priority Critical patent/JPH10143193A/ja
Publication of JPH10143193A publication Critical patent/JPH10143193A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Abstract

(57)【要約】 【課題】 重要キーワードの欠落の少ない、聴き取りや
すい早送り音声再生を可能とする音声処理装置の提供を
目的とする。 【解決手段】 音声信号入力手段と、音声信号を分割す
る音声フレーム生成手段と、音声信号を任意の周波数帯
域幅に分割するフィルターバンクと、周波数帯域分割し
た音声信号から、任意の周波数帯域を含む音声信号を選
択する有音声判定対象帯域選択手段と、選択した周波数
帯域制限の音声信号から、有音であるか無音であるかの
判定を行なう有音声判定手段と、音声信号を一時蓄積す
る一時バッファ手段と、有音であるか無御であるかの判
定結果と一時バッファ手段に蓄積された分割音声信号の
数をもとに、一時バッファ手段に蓄積した音声信号を分
割音声信号毎に管理する一時バッファ管理手段と、音声
信号出力手段を備えたことを特徴とした音声信号処理装
置。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声信号の早送り再
生に関するものである。
【0002】
【従来の技術】最近のビデオ機器などでは、映像の早送
り再生技術の発展とともに、音声の早送り再生技術も発
展してきている。
【0003】映像の早送り再生は、視覚的に気にならな
い程度のコマ落としを行い、映像を間引きながら再生す
ることで早送り再生を可能としている。
【0004】一方音声は、時間データの間引きを行い、
時間長を短くすることで早送り再生を可能としている。
この時間データの間引きは、単純に音声データの内容に
関係なくある一定長を間引く方法と、無音音声部を検知
し、これを間引く方法がある。またこれらの2つを合わ
せた方法もある。
【0005】従来例として、単純間引きと、無音音声部
を検知しこれを間引く2つの方法を合わせた早送り音声
再生を図11を用い説明する。
【0006】図11において101はA/D変換器であ
り、102は前記A/D変換器101で変換した音声デー
タを、ある時間単位毎に分割する音声フレーム生成手段
である。以後このようにある時間毎に分割された音声信
号を音声フレームと呼ぶ。
【0007】103は前記音声フレーム生成手段102
で生成した音声フレームを入力とし、音声フレームの振
幅レベルの絶対値を検知する振幅レベル検知手段であ
る。104は前記振幅レベル検知手段103で検知した
振幅レベルの絶対値を入力とし、あらかじめ設定したし
きい値レベルとの比較を行い、音声フレームの選択を行
うしきい値比較手段である。105は前記しきい値比較
手段104によって選択された音声フレームを時系列に
蓄積する一時バッファ手段である。106は前記一時バ
ッファ手段105に蓄積された音声フレームを管理する
一時バッファ管理手段である。107は前記一時バッフ
ァ手段105からの音声信号を入力とするD/A変換器で
ある。
【0008】次に具体的に1.25倍速度の早送り音声
信号の生成方法を例にとって説明する。
【0009】まず入力音声信号をA/D変換器101によ
ってデジタル変換し、音声フレーム生成手段102によ
って、音声ピッチ周期に近い20ミリ秒毎に分割し、音
声フレームを生成する。
【0010】生成された音声フレームを次の振幅レベル
検知手段103に入力し、音声フレームの振幅レベルの
絶対値を検知する。
【0011】次にしきい値比較手段104へ音声フレー
ムの振幅レベルの絶対値を入力し、しきい値レベルと振
幅レベルの絶対値との比較を行い、音声フレームが有音
声の音声フレームであるか無音声の音声フレームである
かの判定を行う。しきい値レベルは無音状態に近い値設
定する。判定は、しきい値レベルよりも振幅レベルの絶
対値が大きい場合、有音声の音声フレームと判定し、小
さい場合には無音声の音声フレームと判定する。
【0012】このようにして、有音声の音声フレームと
判定された音声フレームがしきい値比較手段104によ
って選択され、時系列に次の一時バッファ手段105へ
蓄積されていく。蓄積される音声フレーム数は時間の経
過とともに増加していく。
【0013】一時バッファ管理手段106では、音声フ
レーム生成手段102で生成した音声フレームの数を受
け、一時バッファ手段105に蓄積された音声フレーム
数を調整する。
【0014】ここでバッファ管理手段106による音声
フレーム数の調整方法を説明する。説明のため一時バッ
ファ手段105の容量は音声フレーム生成手段102で
生成される音声フレームの大きさの10倍、つまり音声
フレーム10フレーム分の容量を持つものとする。
【0015】1.25倍速度の早送り音声再生を実現す
るためには、時間軸方向に8/10の圧縮を行う必要が
ある。このため一時バッファ管理手段106によって一
時バッファ手段105に蓄積した音声フレーム数を、音
声フレーム10フレーム分に相当する時間毎に8フレー
ムに調整する必要がある。
【0016】調整時、一時バッファ手段105に音声フ
レームが10フレーム存在する場合は、蓄積された音声
フレームの10フレーム中から、蓄積の順番の古い音声
フレームから遡って2フレームを破棄する。9フレーム
存在する場合には、同様に最後の1フレームを破棄す
る。このようにして音声フレームの内容に関係なく単純
に音声フレームを間引いていく。
【0017】8フレーム存在する場合は破棄は行わず、
7フレーム以下である場合は中身が無音である音声デー
タの音声フレームを8フレームに満たす分だけ最後の音
声フレームへ付加する。このようにして調整毎で常に8
フレームになるように管理する。
【0018】このようにして一時バッファ手段105の
音声フレーム数を調整毎に8フレームに管理すること
で、時間軸方向に8/10の圧縮が達成される。
【0019】そしてこの8つの音声フレームをD/A変換
器107へ順に入力し、アナログ信号へ変換し再生する
ことで、入力音声信号に対し1.25倍速度の早送り音
声再生を達成できる。
【0020】ところで実際の音声信号、例えばテレビ番
組などの音声信号を入力とした場合、無音声であるシー
ンは少なく、しきい値比較手段104で無音の音声フレ
ームと判定される音声フレームの数は少ない。
【0021】このため音声フレーム生成手段102によ
って生成された音声フレームは、しきい値比較手段10
4によって有音声の音声フレームと判定されることが多
く、ほとんどが一時バッファ手段105へ蓄積される。
これによりしきい値比較手段104での無音の音声フレ
ームの破棄は期待できず、一時バッファ管理手段106
による音声フレームの破棄が頻繁に起こる。そしてこの
破棄された音声フレームの中に重要なキーワードが存在
した場合は、聴取者にとって内容理解が困難な早送り音
声再生になる。
【0022】
【発明が解決しようとする課題】テレビ音声などを入力
音声信号とした場合、従来例では無音の音声フレームの
存在が少ない場合に、一時バッファ管理手段106によ
って頻繁に音声フレームの破棄が生じる。このため破棄
した音声フレーム中に重要なキーワードが存在した場
合、内容理解が困難な早送り音声再生となっていた。
【0023】本発明ではかかる点に艦み、無音の音声フ
レームが存在しない場合に生じる重要なキーワードを含
む音声フレームの破棄による内容理解困難な早送り音声
再生を改善するため、柔軟な無音、有音の音声フレーム
の判定手段を備えた音声信号処理装置を提供するもので
ある。
【0024】
【課題を解決するための手段】前記目的を達成するため
に、本発明の音声信号処理装置は、音声信号を入力とす
る音声信号入力手段と、前記音声信号入力手段からの音
声信号を入力とし、音声信号の分割を行なう音声フレー
ム生成手段と、前記音声フレーム生成手段によって分割
した音声信号を入力とし、任意の周波数帯域幅に分割す
るフィルターバンクと、前記フィルターバンクによって
周波数帯域分割した音声信号を入力とし、周波数帯域分
割された音声信号から任意の周波数帯域を含む音声信号
を選択する有音声判定対象帯域選択手段と、前記有音声
判定対象帯域選択手段によって選択された周波数帯域制
限の音声信号を入力とし、有音であるか無音であるかの
判定を行ない、前記音声フレーム生成手段からの音声信
号の選択を行なう有音声フレーム判定手段と、前記有音
声判定手段によって選択された音声信号を入力とし、時
系列に一時蓄積する一時バッファ手段と、前記一時バッ
ファ手段に蓄積された音声信号を管理する一時バッファ
管理手段と、前記一時バッファ手段からの音声信号を出
力する音声信号出力手段を備えたことを特徴としてい
る。
【0025】また、前記目的を達成するために、本発明
の音声信号処理装置は、前記音声フレーム手段からの有
音声信号を選択する有音声フレーム選択手段と、前記一
時バッファ管理手段の代わりに、前記一時バッファ手段
に蓄積された分割音声信号を、前記一時バッファ手段に
蓄積された分割音声信号の数をもとに、分割音声信号単
位に管理する一時バッファ管理手段を備えたことを特徴
としている。
【0026】
【発明の実施の形態】
(実施例1)本発明の実施例1を図1、図2、図3、図
4、図5を用いて説明する。
【0027】図1は本発明の音声信号処理装置の実施例
1を示すブロック図である。図1において1は音声信号
入力手段であり、A/D変換器を備える。2は前記音声信
号入力手段1からの入力音声信号をある時間毎に分割し
音声フレームを生成する音声フレーム生成手段であり、
3は前記音声フレーム生成手段2からの音声フレームを
入力とし、複数の周波数帯域へ分割するフィルターバン
クであり、4は前記フィルターバンク3からの周波数帯
域分割された音声フレームを入力とし、有音声判定の対
象となる周波数帯域を含む周波数帯域制限の音声信号を
選択する有音声判定対象帯域選択手段であり、5は前記
有音声判定対象帯域選択手段4で選択した周波数帯域制
限の音声信号を入力とし、有音、無音の判定を行なう有
音声フレーム判定手段である。6は前記音声フレーム生
成手段2で生成した音声フレームを時系列に蓄積する一
時バッファ手段であり、7は前記一時バッファ手段7に
蓄積された音声フレームを、前記有音声フレーム判定手
段での判定結果と前記一時バッファ手段に蓄積された音
声フレームの数をもとに、音声フレーム単位に管理する
一時バッファ管理手段であり、8は前記一時バッファ手
段6からの音声信号を入力とする音声信号出力手段であ
り、D/A変換器を備える。
【0028】次に例として1.25倍速度の早送り音声
再生を達成するまでの動作を説明する。
【0029】入力音声信号は音声信号入力手段1のA/D
変換器によってデジタル信号へ変換され、次の音声フレ
ーム生成手段2へ入力される。音声フレーム生成手段2
では、図2に示すように入力された音声信号を音声ピッ
チ周期に近い20ミリ秒毎に分割し、音声フレームを生
成する。
【0030】次に音声フレーム生成手段2で生成した音
声フレームをフィルターバンク3へ入力する。フィルタ
ーバンク3では、図3に示すような帯域分割フィルター
を複数備えたフィルターバンクを用い入力した音声フレ
ームを複数の周波数帯域へ分割する。
【0031】フィルターバンク3で帯域分割された音声
信号を入力とする有音声判定対象帯域選択手段4では、
図3に示すように、人の声の再現性を重視し100Hz
から200Hzの周波数を含む周波数帯域幅の音声信号
を選択し、有音声フレーム判定手段5へ入力する。
【0032】有音声フレーム判定手段5では、図4に示
すように、帯域制限された音声信号のスペクトル振幅レ
ベルとしきい値レベルとの比較を行う。しきい値の設定
は、スペクトル振幅レベルが0に近いレベルに設定す
る。
【0033】比較を行い、しきい値レベル以上のスペク
トル振幅レベルのサンプルの個数を判定スコアとして算
出する。この判定スコア値の大きさを参照することによ
って無音、有音の状態を見きわめることができる。図4
に示す例では判定スコアは12になる。
【0034】以上のようにして有音声フレーム判定手段
5で判定スコアが算出され、一時バッファ手段6に順次
音声フレーム生成手段2からの音声フレーム出力が蓄積
されていく。
【0035】次に一時バッファ手段6に蓄積した音声フ
レームを、一時バッファ管理手段7によって、ある時間
毎にフレーム数を調整する方法について説明する。
【0036】一時バッファ管理手段7は、音声フレーム
生成手段2で生成された音声フレーム数を受けて調整の
タイミングを決定する。
【0037】本実施例1では一時バッファ手段6の容量
である音声フレーム、10フレーム分の時間毎で調整を
行う場合を例として説明する。
【0038】図5は10フレームの音声フレームが一時
バッファ手段6に蓄積されている様子を示している。
【0039】各音声フレームには、有音声フレーム判定
手段5で算出された判定スコアと、一時バッファ管理手
段7によって管理されている固有のインデックスがあ
り、これらをまとめて一組とし、一時バッファ管理情報
として一時バッファ管理手段7によって管理されてい
る。
【0040】図5の例では、音声フレームAからJに対
し、各々小文字のaからjがインデックスとして対応して
いる。各音声フレームに対応する判定スコア値は図5に
示すとおりである。
【0041】一時バッファ管理手段7は、一時バッファ
管理情報内の各音声フレームに対する判定スコア値を参
照し、判定スコア値の大きい順に、図5のように一時バ
ッファ管理情報の並び替えを行う。ただし、判定スコア
値が同値の場合は先に一時バッファ手段6に蓄積された
音声フレームを優先し並び替えを行う。
【0042】1.25倍速度の早送り音声再生を達成す
るためには、一時バッファ手段6内の音声フレーム数を
10フレームから8フレームへ調整しなくてはならな
い。このため、一時バッファ管理情報の並び替えの後、
図5に示すように判定スコア値の大きいものから順に、
8つの音声フレームを選択し、これらを一時バッファ手
段6に残し、残りの2フレームを破棄する。図5の例で
はインデックスがdとgである2つの音声フレームD、Gが
破棄されている。破棄した後に図5に示すように、一時
バッファ手段6に残った音声フレームを次の音声信号出
力手段8へ入力していく。
【0043】このように調整された一時バッファ手段6
内の音声フレームを、順に音声出力手段8のD/A変換器
へ入力し出力音声信号を得て、これを再生することによ
り1.25倍速度の早送り音声再生が達成できる。
【0044】従来例では一時バッファ手段6に蓄積され
た音声フレームの破棄は、音声フレームの内容に関係な
く、蓄積順の古い、つまり時間的に新しい音声フレーム
から順に破棄していた。このため破棄した音声フレーム
に重要なキーワードが存在した場合、内容理解が困難な
早送り音声再生になっていた。
【0045】本発明では、一時バッファ手段6に蓄積さ
れた音声フレームの判定スコア値の最も小さい、つまり
無音の音声フレームにより近いものから順に音声フレー
ムを破棄するため、従来例と比べると重要なキーワード
を含む音声フレームの破棄が少なくなる。このため内容
理解しやすい早送り音声再生が可能となる。
【0046】尚、本実施例1では有音声判定対象帯域手
段4において、100Hzから200Hzの帯域を含む
音声信号の選択を行ったが、着目する音声信号に応じて
複数の帯域分割音声信号の選択を行い、前記有音声フレ
ーム判定手段5により判定スコア値を算出することによ
って、同様な早送り音声再生が可能である。
【0047】また本実施例1では音声フレームの長さを
20ミリ秒にしたが、既知な技術であるケプストラム法
などを用いて、音声ピッチの周期を計算し、この長さで
音声フレームを生成することでも同様な早送り音声再生
が可能である。
【0048】また本実施例1では1.25倍速度の早送
り音声再生について説明したが、一時バッファ管理手段
7での音声フレームの調整の周期、破棄する音声フレー
ムの数を調整することで、同様に任意の速度の早送り音
声再生が可能である。
【0049】また本実施例1では有音声フレーム判定手
段での判定スコアー値の算出を、しきい値以上のスペク
トル振幅を持つサンプルの個数としたが、逆にしきい値
以下のものの個数を判定スコアとしても同様な早送り音
声再生が可能である。
【0050】(実施例2)本発明の実施例2を図6、図
7、図8、図9、図10を用いて説明する。
【0051】図6において図1と同様の機能を有するも
のは同一の番号を付けて説明を省略する。
【0052】図6における9は、有音声フレーム判定手
段5によって算出された判定スコア値を参照し、音声フ
レーム生成手段2からの音声フレームデータの選択を行
い、無音の音声フレームの場合は破棄を行い、有音の音
声フレームの場合は一時バッファ手段6へ音声フレーム
を選択する有音声フレーム選択手段である。
【0053】図6における10は、有音声フレーム判定
手段5からの判定スコア値、有音声フレーム選択手段9
で破棄した音声フレーム数、一時バッファ手段6から蓄
積した音声フレーム数を受け、一時バッファ手段に蓄積
された音声フレームデータを音声フレーム単位で管理す
る一時バッファ管理手段である。
【0054】実施例1では、音声フレームの破棄を実施
例1で説明した一時バッファ管理手段のみによって行っ
ていた。本実施例2では、有音声フレーム選択手段9で
無音と判定される音声フレームをあらかじめ破棄してお
き、さらに図6の一時バッファ管理手段10によって一
時バッファ手段6中の音声フレーム数を調整することで
早送り音声再生を達成する。実施例1と同様に1.25
倍速度の早送り音声再生を例にとって説明を行う。
【0055】音声信号入力手段1へ入力音声信号を入力
し、有音声フレーム判定手段5によって判定スコア値を
算出するまでは、前記の実施例1で説明したものと同様
であるので説明を省略する。
【0056】有音声フレーム選択手段9は、有音声フレ
ーム判定手段5によって算出された判定スコア値を参照
し、図7に示すよな音声フレームの選択を行う。判定ス
コア値が正値の場合、つまり有音の音声フレームとして
判定できる場合は、音声フレームを次の一時バッファ手
段6へ入力し、判定スコア値が0の場合、つまり無音の
音声フレームとして判定できる場合は破棄を行う。この
ようにして音声フレームの選択を行う。
【0057】また、破棄した音声フレーム数を一時バッ
ファ管理手段10へ入力する。このようにして、選択さ
れた音声フレームは一時バッファ手段6へ時系列に蓄積
されていく。
【0058】次に一時バッファ管理手段10による一時
バッファ6中の音声フレームの調整方法について図8、
図9、図10を用いて説明する。
【0059】調整は、あらかじめ設定した音声フレーム
数が、一時バッファ手段6に蓄積された時点で始まる。
【0060】ここでは例として、音声フレームが20フ
レーム蓄積された時点で調整を行う場合をとりあげる。
尚、調整開始時に一時バッファ手段6の音声フレーム
数、20フレームに対して、有音声フレーム選択手段9
による破棄した音声フレーム数が5フレームであれば、
4対1の割合となり時間軸方向に8/10の圧縮がで
き、この20フレームを次の音声信号出力手段に入力し
再生すれば1.25倍速度の早送り音声再生が達成され
る。つまり、一時バッファ手段に残す音声フレーム数
と、最終的に破棄される音声フレーム数の比を4対1に
調整すれば、1.25倍速度の早送り音声再生が達成され
ることになる。
【0061】一時バッファ手段6に音声フレームが20
フレーム蓄積されるまでに、有音声フレーム選択手段に
よって破棄された音声フレームの数は、音声フレームの
内容によって一定ではない。調整時での一時バッファ手
段中の音声フレーム数と、有音声フレーム選択手段によ
って破棄された音声フレーム数の状態は、図8、図9に
示す2通りが考えられる。
【0062】図8は、一時バッファ手段に20フレーム
の音声フレームが蓄積されており、有音声フレーム選択
手段によって7フレームの音声フレームが無音の音声フ
レームとして破棄された場合を示している。
【0063】図9は、同様に一時バッファ手段に20フ
レームの音声フレームが蓄積されており、声フレーム選
択手段によって3フレームの音声フレームが無音の音声
フレームとして破棄された場合を示している。
【0064】図8、図9の最小無音声フレーム数とは、
一時バッファ手段中の20フレームに対する4分の1の
値である定数値の5フレームを示している。
【0065】まず図8に示す場合の一時バッファ管理手
段による調整の流れを図10を用いて説明する。
【0066】図10は一時バッファ管理手段による調整
の流れを示したもので、20フレーム分の音声フレーム
が一時バッファ手段に蓄積された時点で調整が開始され
る。図8に示す場合ではステップ201、ステップ20
2、ステップ203、ステップ204が実行される。
【0067】まずステップ201では、前回の調整時に
ステップ204でセットした無音声フレーム数の余りを
現在の無音声フレーム数へ加算する。
【0068】ここで無音声フレーム数の余りとは、図8
の場合であれば、最小無音声フレーム数を超えた分の音
声フレーム数を示しており、図8に示している現在の無
音声フレーム数7フレームは、前回の無音声フレーム数
の余りを含めたフレーム数である。また図8では次回に
加算される無音声フレーム数の余りは2フレームとな
る。尚、無音声フレーム数の初期値は0フレームであ
る。
【0069】ステップ201によって、前回の無音声フ
レーム数の余りを含めた無音声フレーム数を決定し、次
のステップ202では無音声フレーム数と、最小無音声
フレーム数との比較を行う。図8の場合は、比較は真値
となり、次のステップ203へ進む。
【0070】ステップ203では、一時バッファ手段に
蓄積された20フレームの音声フレーム全てを音声信号
出力手段へ入力する。一時バッファ手段中の音声フレー
ムの破棄は一切行わない。
【0071】次のステップ204では、次回の調整時の
ステップ201で加算する無音声フレーム数の余りを算
出する。図8においては2フレームとなる。
【0072】図8に示すように、有音声フレーム選択手
段によって破棄された音声フレーム数が最小無音声フレ
ーム数以上の場合は、最小無音声フレーム5フレームに
対し、一時バッファ手段中の20フレームの音声をその
まま音声信号出力手段へ入力し再生することで1.25
倍速度の早送り音声再生が達成される。この場合の音声
は、判定スコア値が0の音声フレームだけの廃棄を行っ
た1.25倍速度音声となる。
【0073】次に図9の有音声フレーム選択手段によっ
て破棄された音声フレーム数が最小無音声フレーム数よ
り少ない場合を説明する。尚、ステップ201、ステッ
プ202までは同様であるため説明を省略し、ステップ
205からの流れを説明する。
【0074】図9は最小無音声フレーム数が、無音声フ
レーム数より多い場合でり、無音声フレーム数は3フレ
ームとなっている。このまま一時バッファ手段の20フ
レームの音声フレームを音声信号出力手段へ入力して
も、現在の無音声フレーム数3フレームに対し20フレ
ームの音声フレームの再生となるため、1.25倍速度
に満たない早送り音声再生となる。このため、ステップ
205では最小無音フレーム数に満たない数の音声フレ
ームを新たに処理し、有音声フレーム選択手段によっ
て、破棄または一時バッファ手段へ音声フレームを蓄積
する。図9の場合は、2フレーム中、1フレームが破棄
され無音声フレーム数が3から4になり、1フレームが
一時バッファ手段へ蓄積され21フレームの音声フレー
ムが一時バッファ手段に蓄積された場合を示している。
【0075】ステップ205で新規に音声フレームを処
理した後に、ステップ206では新たに一時バッファ手
段に蓄積された音声フレーム数分を、一時バッファ手段
に蓄積された音声フレームから破棄する。図9の場合
は、新たに蓄積した音声フレーム数は1フレームである
ので、1フレーム分の音声フレームを破棄する。そして
この破棄の方法は前期実施例1で図5を用いて説明した
方法を用い、判定スコア値をもとに1フレーム分を破棄
する。
【0076】ステップ206で音声フレームの破棄を行
った後は20フレームの音声フレームが一時バッファ手
段に残されることになり、この20フレームの音声フレ
ームを音声信号出力手段へ入力する。
【0077】最後にステップ207で次回に加算する無
音声フレームの余りを0にセットする。
【0078】図9の場合、有音声フレーム選択手段にて
破棄される音声フレームが少ない場合、実施例1で図5
を用いて説明した判定スコア値をもとにした音声フレー
ムの破棄を行い、図8の場合と同様に、結果的に破棄し
た総音声フレーム数5フレームに対し、20フレームの
音声フレームを音声信号出力手段へ入力し再生すること
で、1.25倍速度の早送り音声再生が達成できる。
【0079】前記の実施例1の例では、判定スコア値を
もとに、あらかじめ決められた数の音声フレームの破棄
を行い可変速度音声再生を達成していた。これは単純に
時間的に新しい音声フレームを破棄する従来の方法より
も、音声フレームの内容、つまり判定スコア値をもとに
破棄する音声フレームを決定する点で従来の例と比較す
るとキーワードの欠落の少ない早送り音声再生が達成で
きる。
【0080】尚、本実施例2では1.25倍速度の早送
り音声再生について説明したが、実施例1と同様に一時
バッファ管理手段7での調整する音声フレーム数を変え
ることで任意の速度の早送り音声再生が可能である。
【0081】また、図10で、ステップ203とステッ
プ204を入れ替えてもどうような早送り音声再生が達
成でき、またステップ207とステップ208を入れ替
えてもどうような早送り音声再生が達成できる。
【0082】
【発明の効果】以上説明したように、柔軟な音声フレー
ムの破棄を行う一時バッファ管理手段を備えることによ
って、重要なキーワードを含んだ音声信号の欠落を極力
抑え、聞き取りやすい早送り音声再生を達成できる。
【図面の簡単な説明】
【図1】実施例1における音声処理装置の構成を示すブ
ロック図
【図2】図1における音声フレームの生成過程の示す模
式図
【図3】図1におけるフィルターバンク3、有音声対象
帯域選択手段4での動作を示す模式図
【図4】図1における判定スコア値の説明図
【図5】図1における一時バッファ管理手段7での音声
フレーム数の調整を示す模式図
【図6】実施例2における音声処理装置のブロック図
【図7】図6における有音声フレーム選択手段9での音
声フレームの選択を示す模式図
【図8】図6における一時バッファ管理手段10での音
声フレーム数の調整を示す模式図
【図9】図6における一時バッファ管理手段10での音
声フレーム数の調整を示す模式図
【図10】図6における一時バッファ管理手段10での
音声フレーム数の調整を示すフローチャート
【図11】従来例を示すブロック図
【符号の説明】
1 音声信号入力手段 2 音声フレーム生成手段 3 フィルターバンク 4 有音声判定対象帯域選択手段 5 有音声フレーム選択手段 6 一時バッファ手段 7 一時バッファ管理手段 8 音声信号出力手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 石津 厚 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】音声信号を入力とする音声信号入力手段
    と、前記音声信号入力手段からの音声信号を分割する音
    声フレーム生成手段と、前記音声フレーム生成手段によ
    って分割した音声信号を任意の周波数帯域幅に分割する
    フィルターバンクと、前記フィルターバンクによって周
    波数帯域分割した音声信号から、任意の周波数帯域を含
    む音声信号を選択する有音声判定対象帯域選択手段と、
    前記有音声判定対象帯域選択手段によって選択した周波
    数帯域制限の音声信号に対し、有音であるか無音である
    かの判定を行なう有音声フレーム判定手段と、前記音声
    フレーム生成手段からの音声信号を一時蓄積する一時バ
    ッファ手段と、前記一時バッファ手段に蓄積された音声
    信号を、前記有音声フレーム判定手段での判定結果と前
    記一時バッファ手段に蓄積された分割音声信号の数をも
    とに、分割音声信号単位に管理する一時バッファ管理手
    段と、前記一時バッファ手段からの音声信号を出力する
    音声信号出力手段を備えたことを特徴とした音声信号処
    理装置。
  2. 【請求項2】前記有音声フレーム判定手段での判定結果
    から、前記音声フレーム生成手段からの有音声信号を選
    択する有音声フレーム選択手段と、前記一時バッファ管
    理手段の代わりに、前記一時バッファ手段に蓄積された
    分割音声信号を、前記一時バッファ手段に蓄積された分
    割音声信号の数をもとに、分割音声信号単位に管理する
    一時バッファ管理手段を備えたことを特徴とした請求項
    記載1記載の音声信号処理装置。
JP8296104A 1996-11-08 1996-11-08 音声信号処理装置 Pending JPH10143193A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8296104A JPH10143193A (ja) 1996-11-08 1996-11-08 音声信号処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8296104A JPH10143193A (ja) 1996-11-08 1996-11-08 音声信号処理装置

Publications (1)

Publication Number Publication Date
JPH10143193A true JPH10143193A (ja) 1998-05-29

Family

ID=17829193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8296104A Pending JPH10143193A (ja) 1996-11-08 1996-11-08 音声信号処理装置

Country Status (1)

Country Link
JP (1) JPH10143193A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134300A (ja) * 1999-08-24 2001-05-18 Sony Corp 音声再生方法および音声再生装置
US7286749B2 (en) 2002-04-16 2007-10-23 Canon Kabushiki Kaisha Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
US7418393B2 (en) 2000-05-26 2008-08-26 Fujitsu Limited Data reproduction device, method thereof and storage medium
JP2010191415A (ja) * 1999-08-24 2010-09-02 Sony Corp 音声再生方法および音声再生装置
CN113053398A (zh) * 2021-03-11 2021-06-29 东风汽车集团股份有限公司 基于mfcc和bp神经网络的说话人识别系统及方法
CN115457948A (zh) * 2021-06-09 2022-12-09 海信集团控股股份有限公司 播放进度的调节方法、车辆及音频播放设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001134300A (ja) * 1999-08-24 2001-05-18 Sony Corp 音声再生方法および音声再生装置
JP2010191415A (ja) * 1999-08-24 2010-09-02 Sony Corp 音声再生方法および音声再生装置
US7418393B2 (en) 2000-05-26 2008-08-26 Fujitsu Limited Data reproduction device, method thereof and storage medium
US7286749B2 (en) 2002-04-16 2007-10-23 Canon Kabushiki Kaisha Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
US7450821B2 (en) 2002-04-16 2008-11-11 Canon Kabushiki Kaisha Moving image playback apparatus, moving image playback method, and computer program thereof with determining of first voice period which represents a human utterance period and second voice period other than the first voice period
CN113053398A (zh) * 2021-03-11 2021-06-29 东风汽车集团股份有限公司 基于mfcc和bp神经网络的说话人识别系统及方法
CN113053398B (zh) * 2021-03-11 2022-09-27 东风汽车集团股份有限公司 基于mfcc和bp神经网络的说话人识别系统及方法
CN115457948A (zh) * 2021-06-09 2022-12-09 海信集团控股股份有限公司 播放进度的调节方法、车辆及音频播放设备

Similar Documents

Publication Publication Date Title
CN1101581C (zh) 语速变换方法及其装置
KR101726208B1 (ko) 볼륨 레벨러 제어기 및 제어 방법
JP4438144B2 (ja) 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
KR101275467B1 (ko) 오디오 재생 장치의 이퀄라이저 자동 제어 장치 및 방법
US8457322B2 (en) Information processing apparatus, information processing method, and program
EP1481392B1 (en) Trick mode audio playback
CN102214464A (zh) 音频信号的瞬态检测方法以及基于该方法的时长调整方法
EP1426926B1 (en) Apparatus and method for changing the playback rate of recorded speech
MXPA03001198A (es) Metodo y sistema para habilitar la conversion de velocidad de audio.
JPH10143193A (ja) 音声信号処理装置
JP3803302B2 (ja) 映像要約装置
JP2005512134A (ja) リアルタイム時間伸縮用パラメータ付きデジタルオーディオ
US12204814B2 (en) Computer implemented method, device and computer program product for setting a playback speed of media content comprising audio
JP3378672B2 (ja) 話速変換装置
JPH05257490A (ja) 話速変換方法および装置
JP3422716B2 (ja) 話速変換方法および装置および話速変換プログラムを格納した記録媒体
JP3081469B2 (ja) 話速変換装置
JPH08146985A (ja) 話速制御システム
JP3373933B2 (ja) 話速変換装置
JP3162945B2 (ja) ビデオテープレコーダ
JP3357742B2 (ja) 話速変換装置
Fierro et al. Extreme audio time stretching using neural synthesis
JP2002297200A (ja) 話速変換装置
KR101465061B1 (ko) 손상음성파일 복원 장치 및 그 방법
JPH09146587A (ja) 話速変換装置