JPH0876783A

JPH0876783A - 音声処理装置および携帯機器

Info

Publication number: JPH0876783A
Application number: JP6219701A
Authority: JP
Inventors: Yasuhiro Tsutsumi; 康弘堤
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 1994-06-28
Filing date: 1994-09-14
Publication date: 1996-03-22

Abstract

(57)【要約】【目的】装置の大型化、高コスト化を最小限に抑え
て、音声のみを強調することができるようにする。【構成】マイク１０に入力された音声が、アンテナ７
から中継局に伝送される。この場合、指定ボタン１２を
操作しながら、マイク１０に入力された音声は、強調区
間の音声とされ、その後、指定ボタン１２を操作せず
に、マイク１０に入力された音声が、強調区間の音声
に、同期をとって重畳され、これにより音声が強調され
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、例えば携帯電話機など
に用いて好適な音声処理装置、並びに携帯機器に関す
る。

【０００２】

【従来の技術】例えば、携帯電話機などを用いて、路上
などで通話を行う場合、周囲の雑音（以下、適宜、環境
雑音という）が大きい場合には、話者が大声で話すこと
により、Ｓ／Ｎを向上させている。

【０００３】しかしながら、例えば通話内容が、機密事
項や、プライベートな内容で、無関係な周囲の人間に聞
かれたくないようなものである場合、話者が大声で話す
と、それらが周囲の人間に聞こえてしまい、好ましくな
い。

【０００４】そこで、環境雑音を除去し、Ｓ／Ｎを向上
させる方法がある。しかしながら、環境雑音が小さい場
合、人間の聴覚（および脳）は、あまり大きな声でなく
ても、その声を聞き取ることが可能であり、従って、話
者は、周囲の人間に聞こえないように、非常に小さな声
で話す必要がある。しかしながら、この場合、電話の相
手にも、話者の声が聞こえなくなることがある。

【０００５】そこで、例えば話者の音声のみを増幅する
などして強調する方法がある。この場合、ゲインを大き
くすることにより、非常に小さな声であっても、電話の
相手に聞こえるようにすることができる。

【０００６】

【発明が解決しようとする課題】しかしながら、環境雑
音が大きい場合、それには、予測が困難な複数の周波数
成分が含まれ、さらにその周波数成分は、時間とともに
変化する。従って、環境雑音が大きい場合、音声と環境
雑音とを分離し、音声のみを強調するのが困難な課題が
あった。

【０００７】そこで、複数のマイクを異なる位置に設置
して、各マイクの出力の位相差を利用して、環境雑音を
含む音声から、その音声と、環境雑音とを分離する方法
があるが、この場合、複数のマイクと、その出力を処理
するアナログ装置が必要となり、従ってハードウェアが
大規模なものになるとともに、装置が高コスト化する課
題があった。

【０００８】本発明は、このような状況に鑑みてなされ
たものであり、装置の大型化、高コスト化を最小限に抑
えて、音声のみを強調することができるようにするもの
である。

【０００９】

【課題を解決するための手段】請求項１に記載の音声処
理装置は、入力された音声を強調する音声処理装置であ
って、音声を入力する入力手段（例えば、図３に示すマ
イク１０など）と、音声を強調する区間である強調区間
を指定する指定手段（例えば、図３に示す指定ボタン１
２など）と、強調区間の音声と、入力手段から入力され
た音声とを、それらを同期させて重畳する重畳手段（例
えば、図３に示す重畳平滑化処理部２８など）とを備え
ることを特徴とする。

【００１０】請求項２に記載の携帯機器は、請求項１に
記載の音声処理装置を有する携帯機器であって、所定の
入力を行うときに操作される操作部（例えば、図２に示
す指定ボタン１２など）と、音声を入力するためのマイ
ク（例えば、図２に示すマイク１０など）とを備え、入
力手段は、マイクでなり、指定手段は、操作部でなるこ
とを特徴とする。

【００１１】請求項３に記載の携帯機器は、音声処理装
置における重畳手段により重畳された音声を送信する送
信手段（例えば、図２に示す通信処理部８など）をさら
に備えることを特徴とする。

【００１２】

【作用】請求項１に記載の音声処理装置においては、マ
イク１０から入力された音声を強調する区間である強調
区間が指定され、その後にマイク１０から入力された音
声と、強調区間の音声とが、それらを同期させて重畳さ
れる。従って、例えばマイク１０などを複数設けること
なく、音声の強調を行うことができる。

【００１３】請求項２に記載の携帯機器においては、請
求項１に記載の音声処理装置、所定の入力を行うときに
操作される操作部、および音声を入力するためのマイク
を有している。そして、音声処理装置の入力手段または
指定手段として、マイクまたは操作部がそれぞれ用いら
れている。従って、装置の大型化を抑えることができ
る。

【００１４】請求項３に記載の携帯機器においては、音
声処理装置における重畳手段により重畳された音声が送
信される。従って、Ｓ／Ｎの良い音声を送信することが
できる。

【００１５】

【実施例】図１は、本発明を適用した携帯電話機の一実
施例の外観構成を示している。この携帯電話機によれ
ば、操作ボタン５を操作して、相手の電話番号を入力す
ることにより、中継局を介して、その相手と通話するこ
とができるようになされている。装置の使用者（話者）
の音声は、マイク１０に入力されて伝送され、また伝送
されてきた相手の音声は、アンテナ７で受信され、スピ
ーカ９から出力されるようになされている。そして、こ
の携帯電話機では、通話の際、指定ボタン１２を操作し
ながら（押しながら）、強調したい音声を発話し、その
後、指定ボタン１２を操作せずに、同一の音声を発話す
ると（繰り返し発話すると）、それらが重畳されること
により音声の強調が行われるようになされている。

【００１６】図２は、図１の携帯電話機の電気的構成例
を示している。ＣＰＵ１は、ＲＯＭ２に記憶されている
システムプログラムおよびアプリケーションプログラム
（装置を携帯電話機として動作させるためのプログラム
やその他のプログラム）にしたがって、装置を構成する
各ブロックを制御するようになされている。

【００１７】ＩＣカードインターフェイス２には、ＩＣ
カードを装着することができるようになされている。Ｉ
Ｃカードインターフェイス２にＩＣカードを装着した場
合には、そこに記録されたプログラムやデータなどを用
いて、ＣＰＵ１に拡張処理を行わせることができる。

【００１８】ＲＯＭ３には、システムプログラムやアプ
リケーションプログラム、その他必要なデータが記憶さ
れている。ＲＡＭ４は、ＣＰＵ１の動作上必要なデータ
を記憶するようになされている。

【００１９】操作ボタン５は、上述したように電話番号
を入力するときや、その他のデータを入力するときに操
作される。表示パネル６は、ＣＰＵ１の制御にしたがっ
て、文字や画像を表示するようになされている。即ち、
表示パネル６には、例えば操作ボタン５のうちの操作さ
れたものがエコーバックされて表示される。

【００２０】通信処理部８は、音声処理部１１を介し
て、マイク１０から供給された音声を変調し、アンテナ
７を介して送信するとともに、アンテナ７で受信された
信号を復調し、その復調結果である音声をスピーカ９か
ら出力するようになされている。

【００２１】マイク１０は、入力された音声を電気信号
である音声信号に変換して音声処理部１１に出力するよ
うになされている。音声処理部１１は、マイク１０から
の音声を、必要に応じて強調して通信処理部８に出力す
るようになされている。指定ボタン１２は、マイク１０
から入力された音声を強調する区間である強調区間を指
定するときに操作される。

【００２２】図３は、音声処理部１１の詳細構成を示し
ている。マイク１０に入力された音声は、Ａ／Ｄ変換器
２１でＡ／Ｄ変換されることによりディジタル信号とさ
れ、選択回路２２に入力される。選択回路２２では、指
定ボタン１２の操作に対応して、入力された音声が、例
えばＦＩＦＯ（First In First Out）方式のメモリ２３
または２４に出力される。

【００２３】即ち、強調したい音声を、最初に発話する
場合、使用者は、指定ボタン１２を操作しながら（指定
ボタン１２をＯＮ状態にして）発話を行う。この場合、
選択回路２２は、メモリ２３を選択する。これにより、
最初に発話された強調したい音声（以下、適宜、基本音
声という）は、マイク１０，Ａ／Ｄ変換器２１、および
選択回路２２を介して、メモリ２３に供給されて記憶さ
れる。

【００２４】ここで、メモリ２３（メモリ２４における
場合も同様）に、音声を記憶させる場合に、そのレベル
が充分小さい部分は、最低レベルの数値に置き換えて記
憶させるようにすることができる。この場合、音声に含
まれるレベルの小さいノイズを除去することができる。

【００２５】メモリ２３に記憶された基本音声は、音素
切り出し部２５に読み出され、そこで音素に分解される
（基本音声から音素が切り出される）。

【００２６】なお、音声の音素への分解は、後述する重
畳平滑化処理部２８で重畳する音声どうしの同期をとる
ために行うので、音素切り出し部２５（後述する音素切
り出し部２６における場合も同様）では、音声が、必ず
しも正確に音素単位に分解される必要はない。即ち、音
声が、「通信装置」（tsuushiNsouchi）であった場合
に、これが、音素ts・u・u・sh・i・N・s・o・u・ch・iに、必ずし
も分解されなくても良い。但し、同一の音声が入力され
た場合に、それらが同じように分解されるようにする必
要がある。即ち、音声「通信装置」が、例えばts・uu・sh
i・N・s・ou・ch・iに分解された場合には、その後に、「通
信装置」と音声入力があったときに、それが同じように
ts・uu・shi・N・s・ou・ch・iに分解される必要がある。

【００２７】従って、音声の音素への分解方法として
は、音声を、正確に音素単位に分解することのできる方
法よりも、同一発話を同一に分解することのできる方法
が好ましい。

【００２８】ここで、図４は、上から順番に、音声「朝
鮮南部に」の音声波形、短時間平均パワー、スペクトル
の変化量、基本周波数（変形相関関数（いわゆる予測残
差の相関関数））、サウンドスペクトログラムを示して
おり、図５は、音声「高原に広が」のスペクトル包絡
線、短時間平均パワー、基本周波数（ピッチ周波数）を
示している。

【００２９】図４および図５から、例えば短時間平均パ
ワーの変化点が音素の切れ目になっていることがわか
る。

【００３０】そこで、音素切り出し部２５では、メモリ
２３に記憶された音声の短時間平均パワーが求められ、
その変化点を音素の切れ目とするように、音声が音素に
分解される。そして、各音素の音声区間が、重畳平滑化
処理部２８に出力される。

【００３１】以上の処理により、例えば基本音声として
「端末」が入力された場合には、重畳平滑化処理部２８
に、例えばその音素「タ」、「ン」、「マ」、「ツ」そ
れぞれの音声区間が供給されることになる。

【００３２】なお、音素切り出し部２５では、音声の短
時間平均パワーの変化点を抽出する他、例えば音声の所
定の周波数成分（ある１つの周波数成分でも良いし、複
数の周波数成分でも良い）のレベルの変化点を抽出する
ようにし、それを音素の切れ目とするようにすることな
ども可能である。

【００３３】使用者は、強調する音声を繰り返し発話す
る場合、意識して、同じように発話を行うと予想される
から、上述した方法により、充分な精度で、同一発話を
同一に分解することができる。

【００３４】次に、強調したい音声の、２回目以降の発
話は、指定ボタン１２を操作せずに（指定ボタン１２を
ＯＦＦ状態にして）行う。この場合、選択回路２２は、
メモリ２４を選択する。これにより、２回目以降に発話
された強調したい音声（以下、適宜、抽出音声という）
は、マイク１０，Ａ／Ｄ変換器２１、および選択回路２
２を介して、メモリ２４に供給されて記憶される。

【００３５】ここで、メモリ２４の記憶容量は、メモリ
２３の記憶容量と同一か、あるいはそれより大きい方が
望ましい。

【００３６】メモリ２４に抽出音声が記憶されると、パ
ターンマッチング部２７では、メモリ２３に記憶された
基本音声と、メモリ２４に記憶された抽出音声とのパタ
ーンマッチングが行われる。なお、この場合、基本音声
および抽出音声には雑音が含まれており、従って雑音が
含まれた状態で、基本音声と抽出音声のパターンマッチ
ングが行われる。但し、基本音声および抽出音声から、
雑音を除去することが可能であれば、基本音声および抽
出音声から雑音を除去した後、パターンマッチング処理
を行うようにすることができる。

【００３７】パターンマッチング部２７では、まず最初
に、メモリ２３に記憶された信号（音声）の、例えばパ
ワーが所定値以上の部分（パワーが短い期間だけ所定値
以下になる場合には、その部分を含む）が基本音声とさ
れ、その基本音声のパターンと、抽出音声のパターンと
の距離（パターン間距離）が、両者をマッチングする位
置をずらしながら計算される。そして、基本音声のパタ
ーンと、抽出音声のパターンとの距離が最も小さくなっ
た場合の、例えばその距離の逆数に対応する値が、基本
音声と抽出音声の一致度（抽出音声が、基本音声に類似
している度合い）とされ、重畳平滑化処理部２８に出力
される。

【００３８】なお、パターンマッチング部２７において
は、メモリ２３または２４それぞれに記憶されている信
号のパターンどうしが部分的に連続して一致している
（一致しているとみなせる）部分を求め、その部分どう
しの距離の逆数に対応する値を、一致度とするようにす
ることが可能である。

【００３９】さらに、パターンマッチング部２７におい
ては、基本音声のパターンと、抽出音声のパターンとの
距離が最も小さくなった場合の、両者をマッチングした
位置が、ピーク位置として音素切り出し部２６に出力さ
れる。

【００４０】即ち、例えば強調する音声が「端末」であ
った場合、図３に示すように、メモリ２３または２４に
は、それぞれ基本音声または抽出音声として音声「タン
マツ」が記憶されるが、この場合、メモリ２３に記憶さ
れた基本音声「タンマツ」の開始位置（アドレス）と、
メモリ２４に記憶された抽出音声「タンマツ」の開始位
置（アドレス）とは、通常異なる。そこで、基本音声の
パターンと、抽出音声のパターンとの距離が最も小さく
なった場合、基本音声の開始位置とマッチングされた抽
出音声の位置が、その抽出音声の開始位置とされ、これ
が、ピーク位置として音素切り出し部２６に出力され
る。

【００４１】なお、基本音声と抽出音声のパターンマッ
チング後、そのマッチング結果に基づいて、メモリ２３
に記憶された基本音声を修正することが可能である。即
ち、メモリ２３に記憶された基本音声の音声区間は、実
際の音声区間に、環境雑音のみが存在する区間を付加し
たものであると考えられるから、マッチング結果に基づ
いて、メモリ２３に記憶された基本音声の音声区間のう
ち、環境雑音のみが存在すると考えられる区間を削除す
る。これにより、以降のマッチングで用いる基本音声の
音声区間が短くなるので、処理の高速化を図ることがで
きる。

【００４２】また、パターンマッチング部２７において
は、基本音声を増幅（減衰を含む）してから、抽出音声
とのパターンマッチングを行うようにすることが可能で
ある。

【００４３】具体的には、増幅前または後の基本音声を
それぞれＳｉ（ｔ）またはＳｏ（ｔ）とした場合（但
し、ｔは時間）、式Ｓｏ（ｔ）＝Ｋｓ×Ｓｉ（ｔ）Ｋｓ＝α×Ｐｓ／Ｐｍにしたがって、基本音声を増幅するようにする。但し、
αは、例えば０．８などの所定の係数であり、Ｐｓは、
所定の基準レベルである。また、Ｐｍは、基本音声の発
話開始時から所定期間（例えば、数百ｍｓ程度）の平均
レベルである。

【００４４】上式によれば、基本音声の発話開始時から
所定期間の平均レベルが、所定の基準レベルより大きい
または小さいとき、基本音声は、それぞれ減衰または増
幅されることになる。

【００４５】音素切り出し部２６は、上述した音素切り
出し部２５と同様に構成され、パターンマッチング部２
７からピーク位置が供給されると、メモリ２４に記憶さ
れた抽出音声を読み出し、その抽出音声を音素単位に分
解する。この場合、音素切り出し部２６では、メモリ２
４に記憶されている音声のうち、ピーク位置が示すアド
レス以降に記憶されている部分（図中、Ｔで示す部分）
が、音素単位に分解する処理の対象とされる。

【００４６】そして、抽出音声を構成する各音素の音声
区間が、重畳平滑化処理部２８に出力される。

【００４７】以上の処理により、例えば抽出音声として
「端末」が入力された場合には、重畳平滑化処理部２８
に、例えばその音素「タ」、「ン」、「マ」、「ツ」そ
れぞれの音声区間が供給されることになる。

【００４８】なお、音素切り出し部２６に、音素切り出
し部２５による基本音声を構成する音素の音声区間を、
図中点線で示すように供給するようにし、この基本音声
の音素の音声区間に基づいて、抽出音声を音素に分解さ
せるようにすることが可能である。

【００４９】即ち、基本音声と抽出音声が同一発話であ
れば基本音声を構成する各音素の音声区間それぞれと、
抽出音声を構成する各音素の音声区間それぞれとは、そ
れほど大きな違いがないと考えられる。そこで、基本音
声の短時間平均パワーが、例えば図６に示すようなもの
であり、その変化点に基づいて、同図に示すように音素
１乃至６が切り出され、それぞれの音声区間が、図７に
示すようなもの（図７の「基本音声」の行に示すもの）
であった場合、この基本音声の音素１乃至６の音声区間
それぞれと、抽出音声の音素の音声区間それぞれとが大
きく異ならないように、基本音声の入力後に入力され
る、例えば抽出音声１乃至４それぞれを音素に分解する
ようにする。

【００５０】具体的には、図７に示す場合、基本音声の
最初の音素１の音声区間は、３５ｍｓであるから、抽出
音声１乃至４の始まりから、例えば３５ｍｓ付近に、そ
の短時間平均パワーの変化点があるときには、その変化
が、ごく微小なものであっても、そこを音素の区切りと
するようにする。また、この場合、抽出音声１乃至４の
始まりから、例えば３５ｍｓより大きく離れたところ
に、その短時間平均パワーの変化点があるときには、そ
の変化が、多少大きなものであっても、そこを音素の区
切りとせず無視するようにする。

【００５１】このようにすることにより、音素切り出し
部２６における抽出音声の音素への分解処理の精度を向
上させることができる（音素切り出し部２６で、音素切
り出し部２５と異なる音素の切り出しが行われることを
防止することができる）。

【００５２】一方、重畳平滑化処理部２８には、上述し
たように、音素切り出し部２５または２６から基本音声
または抽出音声の音素の音声区間がそれぞれ供給される
とともに、パターンマッチング部２７から一致度が供給
される他、選択回路２２から基本音声または抽出音声が
供給されるようになされている。

【００５３】重畳平滑化処理部２８は、例えば図８に示
すように構成され、選択回路２２からの基本音声と抽出
音声とを、それらを同期させて重畳するようになされて
いる。即ち、選択回路２２からの基本音声または抽出音
声は、メモリ３５またはメモリ３６にそれぞれ供給され
て記憶される。さらに、基本音声は、基本周波数（ピッ
チ周波数）抽出部３１に供給され、そこで基本周波数成
分だけが抽出される。基本音声の基本周波数成分は、Ｂ
ＰＦ（バンドバスフィルタ）３２に供給され、そこでノ
イズ成分が取り除かれて、位相検出部３３に出力され
る。位相検出部３３では、基本音声の基本周波数成分の
位相が検出され、位相記憶部３４に供給されて記憶され
る。

【００５４】選択回路２２から、基本音声が供給された
後は、上述したようにマイク１０に抽出音声が入力され
て供給される。抽出音声は、メモリ３６に記憶されると
ともに、基本音声と同様に、基本周波数抽出部３１，Ｂ
ＰＦ３２、位相検出部３３に順次供給されていき、これ
により抽出音声の基本周波数成分の位相が検出される。
この抽出音声の基本周波数成分の位相は、位相制御部３
７に出力される。

【００５５】位相制御部３７は、位相検出部３３から抽
出音声の基本周波数成分の位相が供給されると、位相記
憶部３４に記憶された基本音声の基本周波数成分の位相
を読み出すとともに、メモリ３６に記憶された抽出音声
を読み出す。そして、抽出音声の基本周波数成分の位相
が、基本音声の基本周波数成分の位相に一致するよう
に、メモリ３６から読み出した抽出音声の位相制御を行
い、重畳部３８に出力する。

【００５６】即ち、例えば基本音声が、図９（ａ）に示
すようなもので、抽出音声が、図９（ｂ）に示すよう
に、基本音声より、基本周波数の高いものである場合、
例えば補間が行われることにより、抽出音声が、図９
（ｃ）に示すように、基本音声と同期するように変形さ
れる。また、例えば例えば基本音声が、図１０（ａ）に
示すようなもので、抽出音声が、図１０（ｂ）に示すよ
うに、基本音声より、基本周波数の低いものである場
合、例えば間引きが行われることにより、抽出音声が、
図１０（ｃ）に示すように、基本音声と同期するように
変形される。

【００５７】以上のように変形された抽出音声は、重畳
部３８に供給される。

【００５８】なお、位相制御部３７は、抽出音声を重畳
部３８に出力する際、所定のタイミング信号をメモリ３
５に出力し、メモリ３５から、そこに記憶された基本音
声を、重畳部３８に出力させる。これにより、重畳部３
８には、基本音声と、変形された抽出音声（以下、適
宜、変形抽出音声という）とが、それぞれの開始位置が
あったタイミングで供給されるようになされている。即
ち、重畳部３８には、基本音声と、変形抽出音声とが同
期がとられた状態で供給される。

【００５９】重畳部３８では、基本音声に、変形抽出音
声が重畳され、これにより基本音声を強調した重畳音声
が選択回路４０に出力される。

【００６０】ここで、基本音声の各音素の音声区間それ
ぞれと、抽出音声の各音素の音声区間それぞれとは、一
致しているとは限らず、むしろ異なることが多い。従っ
て、重畳部３８において、基本音声と変形抽出音声とを
そのまま重畳したのでは、異なる音素が重なり合い、重
畳音声が聞きにくいものとなる恐れがある。即ち、基本
音声と抽出音声が、例えばtaNmatsu（端末）であった場
合に、基本音声の最初の音素ｔの音声区間が、変形抽出
音声の最初の音素ｔの音声区間より短い場合、これらを
そのまま重畳すると、変形抽出音声の最初の音素ｔの終
わり部分と、基本音声の２番目の音素ａとが重畳される
こととなり、これにより重畳音声が聞きにくいものとな
る。

【００６１】そこで、重畳部３８では、音素同期制御部
３９から供給される重畳実行信号に基づいて、基本音声
と変形抽出音声との重畳を行うようになされている。

【００６２】即ち、音素同期制御部３９には、音声切り
出し部２５または２６より、基本音声または抽出音声そ
れぞれの各音素の音声区間が供給されるようになされて
いる。そして、音素同期制御部３９は、基本音声の各音
素の音声区間と、抽出音声の各音素の音声区間とが一致
するタイミングで重畳実行信号を、重畳部３８に出力す
る。

【００６３】重畳部３８は、音素同期制御部３９から供
給される重畳実行信号のタイミングで、即ち音素単位の
同期をとって、基本音声と変形抽出音声との重畳を行
う。これにより、例えば基本音声または変形抽出音声
が、それぞれ図１１（ａ）または図１１（ｂ）に示すよ
うなものであり、基本音声の最初の音素である子音の音
声区間が、変形抽出音声の最初の音素である子音の音声
区間より短い場合、変形抽出音声（図１１（ｂ））の、
図中Ｄで示す区間が無視されて、基本音声と変形抽出音
声の最初の音素どうしが重畳される。

【００６４】そして、基本音声または変形抽出音声の２
番目の音素である母音どうしが、その始まり部分が一致
するように重畳される。

【００６５】従って、重畳部３８では、図１１（ｂ）に
示した変形抽出信号が、図１１（ｃ）に示すように、図
中Ｄで示す区間が削除された信号とされて、基本音声
（図１１（ａ））に重畳される。よって、異なる音素が
重なり合い、重畳音声が聞きにくいものとなることを防
止することができる。

【００６６】以上のように、重畳平滑化処理部２８で
は、基本音声と抽出音声とが、それらの基本周波数の同
期と音素単位の同期の、いわば階層的な同期をとって重
畳される。

【００６７】重畳音声は、重畳部３８から選択回路４０
に出力される。選択回路４０には、重畳音声の他、図３
の選択回路２２から抽出音声と、選択信号生成部４１か
ら選択信号が供給されるようになされている。選択回路
４０では、選択信号生成部４１から出力される選択信号
に対応して、重畳音声および抽出音声のいずれか一方が
選択され、通信処理部８に出力される。

【００６８】選択信号生成部４１には、自身が出力する
選択信号Ｆと、パターンマッチング部２７（図３）が出
力する一致度とが入力されるようになされており、例え
ば図１２に示す特性で、０および１のうちのいずれか
を、選択信号Ｆとして出力するようになされている。

【００６９】即ち、選択信号生成部４１は、いま自身が
出力している選択信号Ｆが１である場合、図１２に実線
で示すように、一致度が所定の値Ｓ１以下である（より
小さい）ときは０を、また一致度が所定の値Ｓ１より大
きい（以上である）ときは１を、それぞれ選択信号Ｆと
して出力する。さらに、選択信号生成部４１は、いま自
身が出力している選択信号Ｆが０である場合、図１２に
点線で示すように、一致度が、上述した所定の値Ｓ１よ
り大きい所定の値Ｓ２以下である（より小さい）場合は
０を、また一致度が所定の値Ｓ２より大きい（以上であ
る）場合は１を、それぞれ選択信号Ｆとして出力する。

【００７０】選択回路４０では、選択信号Ｆが、０およ
び１のうちの、例えば１の場合は重畳音声を、選択信号
Ｆが０の場合は抽出信号を、それぞれ選択して、通信処
理部８へ出力するようになされている。

【００７１】従って、いま選択信号Ｆが１であり、選択
回路４０で重畳音声が選択されている場合、基本音声と
抽出音声との一致度が所定の値Ｓ１以下にならない限
り、選択信号Ｆは１のままであり、選択回路４０では、
重畳音声が選択され続けることとなる。そして、基本音
声と抽出音声との一致度が所定の値Ｓ１以下になった場
合、即ち、例えばいまメモリ２３に記憶されている基本
音声と同一の音声でない音声が発話され、これが抽出音
声とされた場合、選択回路４０からは抽出音声が選択さ
れて出力されるようになる。

【００７２】また、いま選択信号Ｆが０であり、選択回
路４０で抽出音声が選択されている場合、基本音声と抽
出音声との一致度が所定の値Ｓ１より高い所定の値Ｓ２
より大きくならない限り、選択信号Ｆは０のままであ
り、選択回路４０では、抽出音声が選択され続けること
となる。そして、基本音声と抽出音声との一致度が所定
の値Ｓ２より大きい値になった場合、即ち、例えばいま
メモリ２３に記憶されている基本音声と同一の音声が発
話され、これが抽出音声とされた場合、選択回路４０か
らは、上述したようにして得られる重畳音声が選択され
て出力されるようになる。

【００７３】従って、この場合、重畳音声または抽出音
声が選択されているときには、それぞれ重畳音声または
抽出音声が選択され続けられ易くなるので、重畳音声と
抽出音声が、頻繁に切り換えられて出力されることによ
り、受信側で、通話内容が聞き取りにくくなることを防
止することができる。

【００７４】選択回路４０において重畳音声が選択され
た場合、この重畳音声が、通信処理部８およびアンテナ
７を介して送信される。重畳音声を生成する際の基本音
声および抽出音声は、雑音を含んでいるが、雑音どうし
は、いわば非同期であるから、これらを重畳することに
より、その振幅が増大することもあれば、減少すること
もあり、従って重畳音声に含まれる雑音の平均レベル
は、基本音声や抽出音声に含まれる雑音の平均レベルと
ほぼ同一となる。

【００７５】一方、基本音声および抽出音声に含まれる
音声信号成分は、上述したように同期をとって重畳され
るから、重畳音声に含まれる音声信号成分の平均レベル
は、基本音声および抽出音声に含まれる音声信号成分の
平均レベルの加算値に対応したものとなる。

【００７６】従って、複数のマイクや、それらの出力を
処理するブロックを設けることなく、即ち装置の大型
化、高コスト化を最小限に抑えて、音声のみを強調する
ことができる。また、周囲の人間に聞かれたくないよう
な通話内容を、小声で話しても、Ｓ／Ｎが良く、レベル
の大きい音声を、通話する相手に送信することができ
る。これにより、通話する相手は、使用者が小声で発話
しても、その内容を、確実に聞き取ることができる。

【００７７】以上、本発明を携帯電話機に適用した場合
について説明したが、本発明は、この他、音声が入力可
能な電子手帳装置などの携帯機器や、その他の機器に適
用可能である。

【００７８】なお、本実施例では、指定ボタン１２を操
作することにより、強調区間を指定するようにしたが、
この他、例えば音声で強調区間を指定するようにするこ
となどが可能である。即ち、例えば装置に音声認識を行
うブロックを設け、例えば音声「開始」および「終了」
などを音声認識するようにし、「開始」と発話されてか
ら「終了」と発話されるまでを、強調区間とすることが
できる。また、例えば発話が繰り返されている部分を認
識するようにし、そのうちの、例えば最初の発話の音声
区間を、強調区間とすることができる。

【００７９】さらに、本実施例においては、基本音声
に、１つの抽出音声を重畳するようにしたが、抽出音声
を繰り返し発話し、基本音声に、繰り返し発話された抽
出音声を重畳するようにすることができる。これは、例
えば基本音声に抽出音声を重畳した重畳音声を、一時記
憶しておくようにし、その重畳音声に、その後に発生さ
れた抽出音声を重畳することを繰り返すようにすれば良
い。

【００８０】但し、この場合、基本音声に、複数の抽出
音声を重畳すると、その結果得られる重畳音声の平均レ
ベルが大きくなりすぎることがあるので、重畳音声の平
均レベルを抑制する必要がある。即ち、基本音声に、ｎ
−１個の抽出音声を重畳するときには、例えば次式など
にしたがって、重畳音声を求めるようにする。

【００８１】Ｓｏ（ｎ，ｔ）＝Ｓｏ（ｎ−１，ｔ）×ｎ
／（ｎ＋１）＋Ｋｓ’×Ｓｉ（ｎ，ｔ）／（ｎ＋１）＝Σ（Ｋｓ’×Ｓｉ（ｋ，ｔ）／（ｎ＋１））＋Ｓｏ
（０，ｔ）／（ｎ＋１）但し、Ｓｏ（ｎ，ｔ）は、基本音声に、ｎ−１個の抽出
音声を重畳した重畳音声である（但し、Ｓｏ（０，ｔ）
は、基本音声である）。また、Ｓｉ（ｎ，ｔ）は、ｎ個
目の（ｎ回目に発話された）抽出音声である。さらに、
Σは、ｋを１乃至ｎに変化させてのサメーションを意味
し、Ｋｓ’は、上述したＫｓより大きな値である。

【００８２】パターンマッチング部２７において、基本
音声を上述したように増幅する場合には、Ｋｓ’＞Ｋｓ
とすることにより、基本音声に、抽出音声を重畳するご
とに得られる重畳音声の平均レベルは、少しずつ大きく
なる。

【００８３】一方、上述したように、基本音声や抽出音
声に含まれる雑音を、そのまま重畳した場合には、その
平均レベルは変化しないが、上式にしたがって、基本音
声と抽出音声との重畳を、いわばゲイン付きで行うこと
により、雑音の平均レベルは徐々に減衰するので、これ
によりさらにＳ／Ｎの良い重畳音声を得ることができ
る。

【００８４】即ち、抽出音声（抽出音声の音声信号成分
および雑音成分）が、例えば図１３（ａ）に示すような
ものである場合、これを位相制御部３７（図８）で変形
したものは、例えば図１３（ｂ）に示すようになる。こ
の変形抽出音声を、基本音声に、ゲインなしで重畳した
場合には、図１３（ｃ）に示すように、重畳音声に含ま
れる雑音の平均レベルは、基本音声や抽出音声に含まれ
る雑音の平均レベルと変わらない。しかしながら、変形
抽出音声を、基本音声に、ゲイン付きで重畳した場合に
は、図１３（ｄ）に示すように、重畳音声に含まれる雑
音の平均レベルは、基本音声や抽出音声に含まれる雑音
の平均レベルより低減される。

【００８５】

【発明の効果】以上の如く、本発明によれば、装置の大
型化、高コスト化を最小限に抑えて、音声のみを強調す
ることができる。

【図面の簡単な説明】

【図１】本発明を適用した携帯電話機の一実施例の外観
構成を示す図である。

【図２】図１の携帯電話機の電気的構成例を示すブロッ
ク図である。

【図３】図２の音声処理部１１の詳細構成を示すブロッ
ク図である。

【図４】音声の分析結果を示す図である。

【図５】音声の分析結果を示す図である。

【図６】基本音声から音素を切り出した結果を示す図で
ある。

【図７】基本音声の音素の音声区間の特定結果と、抽出
音声１乃至４それぞれの音素の音声区間の特定結果とを
示す図である。

【図８】図３の重畳平滑化処理部２８の詳細構成を示す
ブロック図である。

【図９】位相制御部３４の動作を説明する図である。

【図１０】位相制御部３４の動作を説明する図である。

【図１１】音素単位の同期がとられる様子を示す図であ
る。

【図１２】選択信号生成部４１の動作を説明する図であ
る。

【図１３】重畳信号に含まれる雑音の平均レベルが減衰
されることを説明する図である。

【符号の説明】

１ＣＰＵ２ＩＣカードインターフェイス３ＲＯＭ４ＲＡＭ５操作ボタン６表示パネル７アンテナ８通信処理部９スピーカ１０マイク１１音声処理部１２指定ボタン２１Ａ／Ｄ変換器２２選択回路２３，２４メモリ２５，２６音素切り出し部２７パターンマッチング部２８重畳平滑化処理部３１基本周波数抽出部３２バンドバスフィルタ３３位相検出部３４位相記憶部３５，３６メモリ３７位相制御部３８重畳部３９音素同期制御部４０選択回路４１選択信号生成部

Claims

【特許請求の範囲】

【請求項１】入力された音声を強調する音声処理装置
であって、前記音声を入力する入力手段と、前記音声を強調する区間である強調区間を指定する指定
手段と、前記強調区間の音声と、前記入力手段から入力された音
声とを、それらを同期させて重畳する重畳手段とを備え
ることを特徴とする音声処理装置。
【請求項２】請求項１に記載の音声処理装置を有する
携帯機器であって、所定の入力を行うときに操作される操作部と、音声を入力するためのマイクとを備え、前記入力手段は、前記マイクでなり、前記指定手段は、前記操作部でなることを特徴とする携
帯機器。
【請求項３】前記音声処理装置における重畳手段によ
り重畳された音声を送信する送信手段をさらに備えるこ
とを特徴とする請求項２に記載の携帯機器。