JP2017143479A

JP2017143479A - 音声信号送信装置、音声信号送信方法、制御プログラム、およびコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2017143479A
Application number: JP2016025044A
Authority: JP
Inventors: 慶浩伊佐岡; Yoshihiro Isaoka
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2016-02-12
Filing date: 2016-02-12
Publication date: 2017-08-17
Anticipated expiration: 2036-02-12
Also published as: JP6603594B2

Abstract

【課題】ユーザによって再生が指示された音声の先頭が欠ける問題を、音声遅延の問題を発生することなく解消し、音声出力の不自然さをより改善する。【解決手段】音声信号送信装置（１）は、第１の音声信号を送信するとともに、第１の音声信号の再生開始に先だって、第２の音声信号の少なくとも一部が再生されるように、第２の音声信号を自動的に送信する送信制御部（１４）を備える。【選択図】図１

Description

本発明は、音声出力装置に対して音声信号を送信する音声信号送信装置、音声信号送信方法、制御プログラム、およびコンピュータ読み取り可能な記録媒体に関する。

従来のデジタル無線通信方式では、相手に音声の最初の部分が送信されない現象、いわゆる頭切れが発生するという問題点があった。

上記の問題点を解決するための技術として、特許文献１に記載されているデジタル無線通信方式が挙げられる。特許文献１に記載されているデジタル無線通信方式においては、入力音声信号に対して遅延を与えることによって、頭切れの発生を抑制している。

具体的に、特許文献１に記載されているデジタル無線通信方式において、入力音声信号として比較的立ち上がりの緩やかな音声パターンの波形では、多少最初の部分が頭切れを起こしても相手側では、明瞭度の劣化はほとんどない。従って、遅延量は少なくてすみ、可変遅延回路の遅延量は短く設定される。

一方、入力音声信号として比較的立ち上がりの早い音声パターンの波形は、頭切れが生じると送信されない部分が多くなり、相手にとっては明瞭度が低下した受信音声となる。このため、立ち上がりの早い波形は可変遅延回路での遅延量を大きくとる必要があり、可変遅延回路の遅延量は長く設定される。

すなわち、特許文献１に記載されているデジタル無線通信方式は、入力音声信号を、デジタル音声信号に変換し、デジタル音声パターン検出回路で音声パターンを検出し適切量の音声信号の遅延量を可変遅延回路により得る構成としたものである。

このように、特許文献１に記載されているデジタル無線通信方式は、入力音声信号のパターンにより音声信号を可変的に遅延させ、頭切れを改善することができる。

特開平１０−１９０５１５号公報（１９９８年７月２１日公開）

特許文献１に記載されているデジタル無線通信方式においては、入力音声信号に対して遅延を与えることによって、頭切れの発生を抑制することが可能となっているものの、その代償として音声出力開始のタイミングに遅延が発生してしまうという問題がある。

特許文献１に係る方法において、送信側から受信側への信号の遅延時間は、送信する音声の立ち上がりが緩やかな場合は短い遅延、送信する音声の立ち上がりが早い場合は長い遅延を加えることで、特に音声の立ち上がりが緩やかな場合の遅延時間を短くすることができる。したがって、遅延時間を一律とする方式に比べれば、信号の遅延時間を全体的に短くすることができるので、遅延による音声出力の不自然さをある程度改善することができる。

ただし、特許文献１に記載されている方法では、遅延時間は短くなったとはいえ未だ遅延が残っているので、遅延時間による音声出力の不自然さを完全に解消したとは言えない。

本発明の目的は、ユーザによって再生が指示された音声の先頭が欠ける問題を、音声遅延の問題を発生することなく解消し、音声出力の不自然さがより改善された音声信号送信装置、音声信号送信方法、制御プログラム、およびコンピュータ読み取り可能な記録媒体を提供することにある。

上記の課題を解決するために、本発明の一態様に係る発明は、音声出力装置に対して音声信号を送信する音声信号送信装置であって、ユーザによって再生が指示された第１の音声信号を送信するとともに、前記第１の音声信号の再生開始に先だって、ユーザによって再生が指示されていない音声信号であって、付加的な音声信号である第２の音声信号の少なくとも一部が再生されるように、前記第２の音声信号を自動的に送信する送信制御部を備えることを特徴とする音声信号送信装置である。

本発明の一態様によれば、ユーザによって再生が指示された音声の先頭が欠ける問題を、音声遅延の問題を発生することなく解消し、音声出力の不自然さをより改善するという効果を奏する。

本発明の音声信号送信装置の概略構成を示すブロック図である。本発明の実施の形態１に係る、送信制御部が送信する第１の音声信号および第２の音声信号のタイミングチャート、ならびに、受信部が受信する第１の音声信号のタイミングチャートである。本発明の実施の形態１に係る別の、送信制御部が送信する第１の音声信号および第２の音声信号のタイミングチャート、ならびに、受信部が受信する第１の音声信号および第２の音声信号のタイミングチャートである。本発明の実施の形態２に係る、送信制御部が送信する第１の音声信号および第２の音声信号のタイミングチャート、ならびに、受信部が受信する第１の音声信号のタイミングチャートである。本発明の実施の形態３に係る、送信制御部が送信する第１の音声信号および第２の音声信号のタイミングチャート、ならびに、受信部が受信する第１の音声信号および第２の音声信号のタイミングチャートである。図１に示す音声信号送信装置の動作の流れの一例を示すフローチャートである。本発明の実施の形態５に係る電子機器の概略構成を示す図である。本発明の実施の形態５に係る別の電子機器の概略構成を示す図である。本発明の実施の形態６に係る電子機器の概略構成を示す図である。本発明の実施の形態７に係る電子機器の概略構成を示す図である。

本発明を実施するための形態について、図１〜図１０を参照して以下に説明する。なお、以下では、説明を簡潔にするために、信号の送信と信号の再生とが同じタイミングであるものとするが、信号の送信から一定の時間が経過した後、信号の再生が行われてもよい。

〔音声信号送信装置の構成〕
図１は、音声信号送信装置１の概略構成を示すブロック図である。音声信号送信装置１は、送信制御部１４および記憶部１５を備えている。送信制御部１４は、句読点特定部６、音圧検出部７、音圧調整部８、再生開始タイミング特定／推定部９、時間調整部１０、およびミキサー１１を有している。記憶部１５は、第１の音声信号格納部３、ノイズ音声格納部４、およびユーザ履歴記憶部５を有している。さらに、音声信号送信装置１は、再生指示受信部２、変調部１２、および送信部１３を備えている。

再生指示受信部２は、音声信号送信装置１に対する再生指示を受信する。当該再生指示の一例として、ユーザがリモコン（図示しない）を用いて行う遠隔指示、音声信号送信装置１に設けられた再生ボタン（図示しない）をユーザが押下することによる指示、音声信号送信装置１を備えている電子機器の操作画面をユーザが操作することによる指示等が挙げられる。

第１の音声信号格納部３は、第１の音声信号を格納している。第１の音声信号とは、上記再生指示に基づいて、ユーザによって再生が指示された音声であり、音楽、言葉、効果音、所定の合成音声、およびマイク（図示しない）等によってユーザが音声信号送信装置１に入力した音声等の種々の音声が挙げられる。

ノイズ音声格納部４は、第２の音声信号（後述）の基となるノイズ音声を格納している。ノイズ音声とは、特定波長の連続音声、または複数の波長の音がランダムまたは一定の規則により混成された音声であることが好ましい。特定波長の連続音声の一例として、正弦波が挙げられる。複数の波長の音がランダムまたは一定の規則により混成された音声の一例として、ホワイトノイズ、ブラウンノイズ、ピンクノイズ、ブルーノイズ、又はバイオレットノイズのいずれかが挙げられる。このように、第２の音声信号に用いるノイズ音声として、種々の周知のノイズ音声を利用することができる。ノイズ音声格納部４に格納されたノイズ音声は、任意の音圧および継続時間を有していてもよい。例えば、第２の音声信号により規定される音声の音量を第１の音声信号により規定される音声の音量に対して十分小さくする場合、第１の音声信号により規定される音声の最小音量に相当する音量のノイズ音声をノイズ音声格納部４に格納しておけばよい。また、例えば、第２の音声信号により規定される音声の継続時間を１０秒以下とする場合、１０秒分のノイズ音声をノイズ音声格納部４に格納しておけばよい。また、上記とは別の方式として、ノイズ音声格納部に代えて、ノイズ音声発信部を設けることにより、ノイズ音声を都度合成・発信する方式を採用してもよい。

ユーザ履歴記憶部５は、第１の音声信号の再生履歴をはじめとする、音声信号送信装置１の各種の使用履歴および動作履歴等を記憶している。

再生指示を受信すると、再生指示受信部２は、第１の音声信号格納部３に格納された第１の音声信号を、句読点特定部６に送信する。句読点特定部６は、再生対象の第１の音声信号に基づいて再生される音声から、句読点に該当するタイミングを特定する。句読点に該当するタイミングは、第１の音声信号に基づいて再生される音声が所定の長さ以上途切れる時間に相当する。

再生指示を受信すると、再生指示受信部２は、第１の音声信号格納部３に格納された第１の音声信号を、音圧検出部７に送信する。音圧検出部７は、再生対象の第１の音声信号によって規定される音声の冒頭の音圧を検出する。一般に、当該音声の冒頭が子音である場合の音圧は、当該音声の冒頭が母音である場合の音圧より小さい傾向にある。

再生指示を受信すると、再生指示受信部２は、ノイズ音声格納部４に格納されたノイズ音声を、音圧調整部８に送信する。また、音圧検出部７は、再生対象の第１の音声信号によって規定される音声の冒頭の音圧の検出結果を、音圧調整部８に送信する。音圧調整部８は、当該検出結果に基づいて、再生対象の第１の音声信号によって規定される音声の冒頭の音圧が小さいほど、ノイズ音声の音圧を大きくする。第１の音声信号によって規定される音声の冒頭の音圧が小さい（例えば、当該冒頭の音声が子音である）場合、第２の音声信号によって規定される音声の音圧が小さいと、第１の音声信号によって規定される音声に頭切れが生じる虞がある。音圧調整部８は、この虞を防ぐ構成であると言える。

再生指示を受信すると、再生指示受信部２は、ユーザ履歴記憶部５に記憶された各種の履歴等を、再生開始タイミング特定／推定部９に送信する。再生開始タイミング特定／推定部９は、当該履歴等に基づいて、再生対象の第１の音声信号の再生開始タイミングを事前特定または事前推定する。すなわち、再生開始タイミング特定／推定部９は、送信制御部１４が第１の音声信号を送信する前に、当該再生開始タイミングを特定または推定する。

句読点特定部６は、再生対象の第１の音声信号に基づいて再生される音声の句読点に該当するタイミングの特定結果を、時間調整部１０に送信する。また、音圧調整部８は、音圧が調整されたノイズ音声を、時間調整部１０に送信する。さらに、再生開始タイミング特定／推定部９は、再生対象の第１の音声信号の再生開始タイミングの事前特定または事前推定の結果を、時間調整部１０に送信する。時間調整部１０は、当該句読点に該当するタイミングの特定結果ならびに当該事前特定または事前推定の結果に基づいて、ノイズ音声の再生タイミングを調整する。また、音声信号送信装置１は、時間調整部１０にタイマー２１を有している。時間調整部１０がタイマー２１を有している場合、時間調整部１０は、上述したノイズ音声の再生タイミングの調整とは独立して、タイマー２１がノイズ音声の再生タイミングを調整することができる。時間調整部１０は、再生タイミングが調整されたノイズ音声を、第２の音声信号として出力する。

第２の音声信号は、ユーザによって再生が指示されていない音声信号であって、付加的な音声信号である。第２の音声信号は、第１の音声信号に基づいて再生される音声の先頭が欠けることを防止できる程度の信号強度や信号継続時間が必要であり、かつ、第１の音声信号の開始タイミングの直前に送信される必要がある。ただし、第２の音声信号によって規定される音声は、上記の条件を満足したうえで、音声が可能な限り聴取者に意識されにくい音声であることが望ましい。これは聴取者が第１の音声信号によって規定される音声を聞き取ることを阻害せず、また、聴取者に違和感を与えないためである。このため、第２の音声信号は、可能な限り強度が弱く、継続時間が短く、音声の開始タイミングを第１音声信号の開始タイミングから離すことが望ましい。ここでの意識とは聴取者がその音声を強く気にするという意味である。

また、第２の音声信号によって規定される音声が聴取者に意識されにくくするために、第２の音声信号によって規定される音声は有意でない音声であることが望ましい。ここで、有意でない音声について、以下に説明する。第１の音声信号は、例えば、何らかのメッセージや音楽など、人間の思慮、伝達情報、創作などの何らかの人間の意思を反映した有意な音声である。これに対して、第２の音声信号によって規定される音声も同じような有意な音声である場合、人間の特性として、有意な音声に反映される人間の意思により、無意識に聞き取りを行ってしまうため、聴取者に認識されやすくなってしまう。このため、第２の音声信号によって規定される音声は有意でない音声であることが望ましい。有意でない音声とは、例えば、特定波長の連続音声、または複数の波長の音がランダムまたは一定の規則により混成されたノイズ音声があげられる。上記でいう一定の規則とは、例として、複数波長それぞれの混成比率や混成の方法等についての数学的な規則などが挙げられ、人間の思慮、伝達情報、創作などの人間の意思を反映しないものである。このような有意でない音声は、聴取者にとってノイズとして認識されるため、たとえ聴取者に聞こえても意識されにくい音声である。よって、第２の音声信号によって規定される音声によって、聴取者が第１の音声信号によって規定される音声を聞き取ることを阻害されることを軽減し、また、第２の音声信号によって規定される音声が聴取者に意識されることによって、聴取者に違和感を与えることを軽減することができる。

第２の音声信号の再生タイミング、換言すれば、時間調整部１０がノイズ音声の再生タイミングを具体的にどのようなタイミングとするのかについては、後述する。

再生指示を受信すると、再生指示受信部２は、第１の音声信号格納部３に格納された第１の音声信号を、ミキサー１１に送信する。また、時間調整部１０は、第２の音声信号を、ミキサー１１に送信する。ミキサー１１は、第１の音声信号と第２の音声信号とを合成し、変調部１２に送信する。なお、例えば第１の音声信号の再生タイミングと第２の音声信号の再生タイミングとが大幅に異なる場合、ミキサー１１を省略し、送信制御部１４は、第１の音声信号と第２の音声信号とを個別に変調部１２に送信してもよい。

このように、送信制御部１４は、第１の音声信号を送信すると共に、第２の音声信号を自動的に送信する。

変調部１２は、送信制御部１４から送信された信号を変調し、送信部１３に送信する。送信部１３は、変調部１２から送信された信号を、所定の送信形式に従って、音声信号として出力する。

音声信号送信装置１は、音声出力装置１６に対して上記音声信号を送信する。なお、音声信号送信装置１および音声出力装置１６においては、当該音声信号の送信を無線通信によって行っているが、当該音声信号の送信を有線通信によって行っていてもよい。

音声出力装置１６は、受信部１７、復調部１８、Ｄ／Ａ（デジタル／アナログ）変換器１９、およびスピーカ２０を備えている。

音声信号送信装置１の送信部１３は、上記音声信号を受信部１７に送信する。受信部１７は、送信部１３から送信された音声信号を、所定の受信形式に従って受信し、復調部１８に送信する。復調部１８は、受信部１７から送信された信号を復調し、Ｄ／Ａ変換器１９に送信する。復調部１８から出力される信号は、デジタル信号である。Ｄ／Ａ変換器１９は、復調部１８から送信された信号を、デジタル信号からアナログ信号に変換する。スピーカ２０は、当該アナログ信号を再生し、音声を出力する。

ここからは、第１の音声信号の再生タイミングおよび第２の音声信号の再生タイミングについて、下記〔実施の形態１〕〜〔実施の形態４〕を参照して、詳細な説明を行う。

〔実施の形態１〕
図２は、本実施の形態に係る、送信制御部１４が送信する最初の第１の音声信号３０、次の第１の音声信号３１、および第２の音声信号３２のタイミングチャート（図２中、送信時）、ならびに、受信部１７が受信する最初の第１の音声信号３４および次の第１の音声信号３５のタイミングチャート（図２中、受信時）である。

図２によれば、送信制御部１４が送信する音声信号は、最初の第１の音声信号３０の再生終了タイミングから、期間３３を空けて、次の第１の音声信号３１が再生される音声信号である。なお、最初の第１の音声信号３０および次の第１の音声信号３１は、これらの組み合わせが１つの第１の音声信号に相当していてもよいし、それぞれ別の第１の音声信号であってもよい。

時間調整部１０は、ノイズ音声の再生タイミングを調整し、最初の第１の音声信号３０の再生開始に先だって、第２の音声信号３２の少なくとも一部が再生されるように、第２の音声信号３２を生成する。具体的に、図２においては、最初の第１の音声信号３０の再生開始タイミングと第２の音声信号３２の再生終了タイミングとがほぼ同じとなるように、第２の音声信号３２が生成されている。

また、図２によれば、受信部１７が受信する音声信号は、最初の第１の音声信号３４の再生終了タイミングから、期間３７を空けて、次の第１の音声信号３５が再生される音声信号である。最初の第１の音声信号３４、次の第１の音声信号３５、および期間３７は、それぞれ、最初の第１の音声信号３０、次の第１の音声信号３１、および期間３３と対応する。

ここで、音声出力装置１６の処理能力が不足していたり、音声出力装置１６が省電力状態から復帰するまでに時間がかかることで、音声出力装置１６から出力される音声の先頭が欠ける（頭切れする）場合を考える。

具体的には、音声出力装置１６またはスピーカ２０によっては、例えば消費電力の低減を目的として、時間の長さはスピーカのタイプに大きく依存するが、例えば短いものでは１秒程度、長いものでは数十秒程度の時間音声入力が無い場合に省電力状態となるものがある。音声出力装置１６またはスピーカ２０が省電力状態の時に音声信号が送信された場合、音声出力装置１６またはスピーカ２０が動作状態に復帰するまでに時間がかかるため、音声信号の最初の部分が再生されず、頭切れの原因となる場合がある。

本発明は、特に上記の原因で発生する頭切れを解消することを念頭においている。

この場合、受信部１７が受信する音声信号は、送信制御部１４が送信する音声信号の先頭が欠けたものとなる。この結果、図２に示す例では、受信部１７が受信する音声信号において、第２の音声信号３２が消失している。図２における、第２の音声信号３２の消失に対応するタイミングチャートの部分を、信号欠損部３６としている。

一方、最初の第１の音声信号３０および次の第１の音声信号３１は、第２の音声信号３２に対して遅れて再生されるため、受信部１７が受信する音声信号において、欠けまたは消失がほとんど生じない。つまり、最初の第１の音声信号３４および次の第１の音声信号３５は、それぞれ、最初の第１の音声信号３０および次の第１の音声信号３１と同様の信号となる。また、期間３７は期間３３と同様の時間となる。つまり、最初の第１の音声信号３０および次の第１の音声信号３１に基づいてスピーカ２０から出力される音声に、頭切れは生じない。立ち上がり鈍化（音量が徐々に立ち上がるよう強制的に変更される現象）についても同様に生じない。

上記の構成によれば、最初の第１の音声信号３０の再生開始に先だって、第２の音声信号３２を送信する。このため、音声出力装置１６から出力される音声に頭切れが生じた場合、第２の音声信号３２に基づいて再生される音声の先頭が欠けてしまう虞はあるものの、最初の第１の音声信号３０に基づいて再生される音声の先頭が欠けてしまう虞を低減することができる。

また、最初の第１の音声信号３０の再生に先だって付加的な音声を送信するため、原理的には最初の第１の音声信号３０に対して最初の第１の音声信号３４に遅延が生じない。つまり、最初の第１の音声信号３０に遅延時間を設けることなく、最初の第１の音声信号３０に基づいて再生される音声の頭切れを防止することができる。

図３は、本実施の形態に係る別の、送信制御部１４が送信する最初の第１の音声信号４０、次の第１の音声信号４１、最初の第２の音声信号４２、および次の第２の音声信号４３のタイミングチャート（図３中、送信時）、ならびに、受信部１７が受信する最初の第１の音声信号４５、次の第１の音声信号４６、および次の第２の音声信号４８のタイミングチャート（図３中、受信時）である。

なお、図３における、最初の第１の音声信号４０、次の第１の音声信号４１、および最初の第２の音声信号４２は、それぞれ、図２における、最初の第１の音声信号３０、次の第１の音声信号３１、および第２の音声信号３２と同様の信号である。このため、最初の第１の音声信号４０、次の第１の音声信号４１、および最初の第２の音声信号４２については、詳細な説明を省略する。

時間調整部１０は、ノイズ音声の再生タイミングを調整し、次の第１の音声信号４１の再生開始に先だって、次の第２の音声信号４３の少なくとも一部が再生されるように、次の第２の音声信号４３を生成する。具体的に、図３においては、次の第１の音声信号４１の再生開始タイミングと次の第２の音声信号４３の再生終了タイミングとがほぼ同じとなるように、次の第２の音声信号４３が生成されている。

また、送信制御部１４が送信する音声信号は、最初の第１の音声信号４０の再生終了タイミングから、期間４４を空けて、次の第２の音声信号４３が再生される音声信号である。

なお、図３における、最初の第１の音声信号４５、次の第１の音声信号４６、および信号欠損部４７は、それぞれ、図２における、最初の第１の音声信号３４、次の第１の音声信号３５、および信号欠損部３６と同様の信号（信号の欠損）である。このため、最初の第１の音声信号４５、次の第１の音声信号４６、および信号欠損部４７については、詳細な説明を省略する。

また、図３によれば、受信部１７が受信する音声信号は、最初の第１の音声信号４５の再生終了タイミングから、期間４９を空けて、次の第１の音声信号４６が再生される音声信号である。

図３に示す例においても、図２に示す例と同様に、最初の第１の音声信号４０および次の第１の音声信号４１に基づいてスピーカ２０から出力される音声に、頭切れは生じない。

但し、期間４９は、次の第２の音声信号４８（次の第２の音声信号４３に対応する、受信部１７が受信する音声信号）の継続時間分だけ、期間４４より長い時間となっている。この結果、次の第１の音声信号４１に基づいてスピーカ２０から出力される音声に、当該次の第２の音声信号４８の継続時間分の遅延が生じることとなる。つまり、図２に示す例においては、図３に示す例と比較して、再生遅延を抑制することができるという利点がある。

本実施の形態は主に、音声信号送信装置１に対して最初の再生指示を行った後、次の再生指示までの時間が、音声出力装置１６が省電力状態に移行するまでの時間より短いことが想定される場合に、好適に実施することができる。

〔実施の形態２〕
図４は、本実施の形態に係る、送信制御部１４が送信する最初の第１の音声信号５０、次の第１の音声信号５１、最初の第２の音声信号５２、および次の第２の音声信号５３のタイミングチャート（図４中、送信時）、ならびに、受信部１７が受信する最初の第１の音声信号５４および次の第１の音声信号５５のタイミングチャート（図４中、受信時）である。

なお、図４における、最初の第１の音声信号５０および次の第１の音声信号５１は、それぞれ、図２における、最初の第１の音声信号３０および次の第１の音声信号３１と同様の信号である。このため、最初の第１の音声信号５０および次の第１の音声信号５１については、詳細な説明を省略する。また、図４における、次の第１の音声信号５１と次の第２の音声信号５３との相互関係は、図２における、最初の第１の音声信号３０と第２の音声信号３２との相互関係と同様である。このため、次の第１の音声信号５１と次の第２の音声信号５３との相互関係についても、詳細な説明を省略する。

時間調整部１０は、ノイズ音声の再生タイミングを調整し、最初の第１の音声信号５０の再生開始に先だって、最初の第２の音声信号５２の少なくとも一部が再生されるように、最初の第２の音声信号５２を生成する。具体的に、図４においては、最初の第１の音声信号５０の再生開始タイミングに対して一定の期間５Ａだけ前に、最初の第２の音声信号５２の再生終了タイミングが来るように、最初の第２の音声信号５２が生成されている。期間５Ａに相当する時間は、特に限定されないが、１秒未満であれば、再生遅延をできるだけ抑制しつつ、最初の第１の音声信号５０に基づいてスピーカ２０から出力される音声に、頭切れが生じることを抑制することができる。

なお、最初の第２の音声信号５２は、送信制御部１４によって、最初の第１の音声信号５０の再生開始前に適切なタイミングで送信されている。再生開始タイミング特定／推定部９による上述した事前特定または事前推定の結果を参照すれば、時間調整部１０は、容易に、最初の第１の音声信号５０の再生開始前に最初の第２の音声信号５２が適切なタイミングで送信されるように、ノイズ音声の再生タイミングを調整することができる。

なお、図４における、最初の第１の音声信号５４および次の第１の音声信号５５は、それぞれ、図２における、最初の第１の音声信号３４および次の第１の音声信号３５と同様の信号である。このため、最初の第１の音声信号５４および次の第１の音声信号５５については、詳細な説明を省略する。

また、図４中、受信時は、受信部１７が最初の第１の音声信号５４を受信した後、音声出力装置１６が省電力状態に移行することを想定している。

受信部１７が受信する音声信号は、最初の第１の音声信号５４の再生および次の第１の音声信号５５の再生のそれぞれについて、送信制御部１４が送信する音声信号の先頭が欠けたものとなる。この結果、図４に示す例では、受信部１７が受信する音声信号において、最初の第２の音声信号５２および次の第２の音声信号５３が消失している。図４における、最初の第２の音声信号５２の消失に対応するタイミングチャートの部分、および次の第２の音声信号５３の消失に対応するタイミングチャートの部分を、それぞれ、信号欠損部５６および信号欠損部５７としている。

一方、最初の第１の音声信号５０および次の第１の音声信号５１は、それぞれ最初の第２の音声信号５２および次の第２の音声信号５３に対して遅れて再生されるため、受信部１７が受信する音声信号において、欠けまたは消失がほとんど生じない。つまり、最初の第１の音声信号５４および次の第１の音声信号５５は、それぞれ、最初の第１の音声信号５０および次の第１の音声信号５１と同様の信号となる。つまり、最初の第１の音声信号５０および次の第１の音声信号５１に基づいてスピーカ２０から出力される音声に、頭切れは生じない。

また、図４においては、送信制御部１４から受信部１７への音声信号の伝達に伴う、最初の第１の音声信号５０に対する最初の第１の音声信号５４の遅延時間を、期間５８とし、次の第１の音声信号５１に対する次の第１の音声信号５５の遅延時間を、期間５９としている。

期間５９は、期間５８より長くなっている。つまり、次の第１の音声信号５１に基づいてスピーカ２０から出力される音声に生じる遅延は、最初の第１の音声信号５０に基づいてスピーカ２０から出力される音声に生じる遅延より大きくなっている。

〔実施の形態３〕
図５は、本実施の形態に係る、送信制御部１４が送信する最初の第１の音声信号６０、次の第１の音声信号６１、最初の第２の音声信号６２、および次の第２の音声信号６３のタイミングチャート（図５中、送信時）、ならびに、受信部１７が受信する最初の第１の音声信号６４、次の第１の音声信号６５、および次の第２の音声信号６７のタイミングチャート（図５中、受信時）である。

なお、図５における、最初の第１の音声信号６０および最初の第２の音声信号６２は、それぞれ、図４における、最初の第１の音声信号５０および最初の第２の音声信号５２と同様の信号である。このため、最初の第１の音声信号６０および最初の第２の音声信号６２については、詳細な説明を省略する。また、図５における、次の第１の音声信号６１および次の第２の音声信号６３も、それぞれ、図４における、最初の第１の音声信号５０および最初の第２の音声信号５２と同様の信号である。このため、次の第１の音声信号６１および次の第２の音声信号６３についても、詳細な説明を省略する。

図５においては、図４と同様に、最初の第１の音声信号６０の再生開始タイミングに対して一定の期間６Ａだけ前に、最初の第２の音声信号６２の再生終了タイミングが来るように、最初の第２の音声信号６２が生成されている。期間６Ａに相当する時間は、特に限定されないが、１秒未満であれば、再生遅延をできるだけ抑制しつつ、最初の第１の音声信号６０に基づいてスピーカ２０から出力される音声に、頭切れが生じることを抑制することができる。換言すれば、送信制御部１４は、最初の第１の音声信号６０の再生開始１秒前以内に最初の第２の音声信号６２の少なくとも一部を再生させることが好ましい。

また、最初の第２の音声信号６２の再生開始タイミング（例えば、アプリ起動のタイミング）と、次の第２の音声信号６３の再生開始タイミングとの間隔に相当する期間６Ｂは、予め定められた一定の時間となっている。期間６Ｂに相当する時間は、特に限定されないが、音声出力装置１６が省電力状態に移行するまでの時間未満とすることが好ましく、例えば数１０秒〜数分であることが好ましい。また、期間６Ｂに相当する最適な時間は、音声出力装置１６の種類や、ユーザの感覚によって異なるので、ユーザが期間６Ｂに相当する時間を任意に調整することができるように、音声信号送信装置１が構成されていることが好ましい。

なお、図５における、最初の第１の音声信号６４および信号欠損部６６は、それぞれ、図４における、最初の第１の音声信号５４および信号欠損部５６と同様の信号（信号の欠損）である。このため、最初の第１の音声信号６４および信号欠損部６６については、詳細な説明を省略する。

また、図５における、次の第２の音声信号６７は、次の第２の音声信号６３に対応する、受信部１７が受信する音声信号である。

〔実施の形態４〕
送信制御部１４は、少なくとも１つの第１の音声信号に基づいて再生される音声が途切れる時間が所定の長さ以上であるとき、この時間の少なくとも一部において第２の音声信号が再生されるように、第２の音声信号を送信してもよい。句読点特定部６による上述した句読点に該当するタイミングの特定結果を参照すれば、時間調整部１０は、容易に、当該第２の音声信号の送信を実現するように、ノイズ音声の再生タイミングを調整することができる。

上記の構成によれば、第１の音声信号によって規定される音声に句読点（音声が途切れる）が含まれている場合であっても、当該句読点のタイミングにおいて音声出力装置１６が省電力状態に移行することを防ぐことができる。これにより、句読点の後の音声に頭切れが生じることを防ぐ効果を奏する。

音声信号送信装置１は、ノイズ音声格納部４に複数種類のノイズ音声が格納されており、当該複数種類のノイズ音声から、ユーザが第２の音声信号の基とすべきノイズ音声を選択することができるように構成されていてもよい。また、音声信号送信装置１は、当該複数種類のノイズ音声から、ユーザが第２の音声信号の基とすべきノイズ音声を選択することができないように構成されていてもよいし、そもそもノイズ音声格納部４に１種類のノイズ音声のみが格納されていてもよい。

また、上記の各実施の形態においては、第１の音声信号と第２の音声信号とが重なり合っていなかったが、第１の音声信号と第２の音声信号とが重なり合っていてもよい。

〔音声信号送信装置の動作の流れの一例〕
図６は、音声信号送信装置１の動作（音声信号送信方法）の流れの一例を示すフローチャートである。

まず、再生指示受信部２が再生指示を受信する（ステップＳ１）。

続いて、第１の音声信号の読み出しを行う（ステップＳ２）。具体的に、再生指示受信部２は、第１の音声信号格納部３に格納された第１の音声信号を、句読点特定部６、音圧検出部７、およびミキサー１１に送信する。

続いて、ノイズ音声の読み出しを行う（ステップＳ３）。具体的に、再生指示受信部２は、ノイズ音声格納部４に格納されたノイズ音声を、音圧調整部８に送信する。

続いて、音圧検出部７は、第１の音声信号によって規定される音声の冒頭の音圧を検出する（ステップＳ４）。

続いて、音圧調整部８は、音圧検出部７による音圧の検出結果に基づいて、第１の音声信号によって規定される音声の冒頭の音圧が小さいほど、第２の音声信号によって規定される音声の音圧を大きくするように、ノイズ音声の音圧を調整する（ステップＳ５）。

続いて、ユーザ履歴の読み出しを行う（ステップＳ６）。具体的に、再生指示受信部２は、ユーザ履歴記憶部５に記憶された、音声信号送信装置１の各種の使用履歴および動作履歴等を、再生開始タイミング特定／推定部９に送信する。

続いて、再生開始タイミング特定／推定部９は、第１の音声信号の再生開始タイミングを特定または推定する（ステップＳ７）。

続いて、時間調整部１０は、第１の音声信号の再生開始に先だって、第２の音声信号の少なくとも一部が再生されるタイミングにする（ステップＳ８：送信制御工程）。具体的に、時間調整部１０は、音圧調整部８より受信したノイズ音声の再生タイミングを調整することによって、第２の音声信号の再生タイミングを調整する。

続いて、時間調整部１０は、句読点特定部６による句読点に該当するタイミングの特定結果に基づいて、第１の音声信号に基づいて再生される音声の句読点に該当するタイミングに、第２の音声信号の再生タイミングを合わせる（ステップＳ９）。ステップＳ８と同様に、時間調整部１０は、音圧調整部８より受信したノイズ音声の再生タイミングを調整することによって、第２の音声信号の再生タイミングを調整する。

最後に、ミキサー１１は、第１の音声信号と第２の音声信号とを合成する（ステップＳ１０）。

なお、音声信号送信装置１において、必須の動作は、ステップＳ１〜ステップＳ３、およびステップＳ８である。その他の各ステップについては、適宜省略されてもよいし、順序が適宜変更されてもよい。

〔実施の形態５〕
図７は、本実施の形態に係るスマートフォン７０およびぬいぐるみ７１（電子機器）の概略構成を示す図である。図７に示すスマートフォン７０は、音声信号送信装置１（図１参照）を備えている。また、図７に示すぬいぐるみ７１は、音声出力装置１６（図１参照）を備えている。

ユーザである操作者（ここでは親）は、スマートフォン７０の操作画面７２から、再生すべき音声（第１の音声信号に基づいて再生される音声）を選択し、スマートフォン７０の音声信号送信装置１に対する再生指示を行う。これにより、ぬいぐるみ７１の音声出力装置１６のスピーカ２０から、頭切れの無い当該音声を出力させることができる。操作者が場面に応じて複数の当該音声を使い分けることで、聴取者（ここでは子供）に対してあたかもぬいぐるみ７１と会話しているかのような感覚を与えることができる。

最初の第１の音声信号に基づいて再生される音声の頭切れを防ぎ、かつ聴取者の反応に対して遅延無く、次の第１の音声信号に基づいて再生される音声を再生させることで、聴取者とぬいぐるみ７１との対話を円滑に演出することができる。

図８は、本実施の形態に係る別のスマートフォン８０およびぬいぐるみ８１（電子機器）の概略構成を示す図である。図８に示すスマートフォン８０は、図７に示すスマートフォン７０の構成に加え、音声出力装置１６を備えている。また、図８に示すぬいぐるみ８１は、図７に示すぬいぐるみ７１の構成に加え、音声信号送信装置１を備えている。スマートフォン８０の音声信号送信装置１とぬいぐるみ８１の音声出力装置１６とで、１つの通信系統が構成されていると共に、スマートフォン８０の音声出力装置１６とぬいぐるみ８１の音声信号送信装置１とで、別の１つの通信系統が構成されている。

スマートフォン８０およびぬいぐるみ８１において、上記別の１つの通信系統を構成し、スマートフォン８０の音声出力装置１６を介して操作者が例えばイヤホン８３を用いて聴取者の声を聴く。これにより、聴取者から離れた場所（聴取者の居る部屋とは別の部屋等）から、操作者と聴取者とが会話を行うことができる。すなわち、下記（１）〜（５）の流れで、当該会話が可能となる。
（１）スマートフォン８０の操作画面８２から、操作者が再生すべき音声を選択する。
（２）ぬいぐるみ８１が発声（音声を出力）する。
（３）ぬいぐるみ８１の発声に応じて、聴取者が返答する。
（４）上記（３）の返答を再生すべき音声として、ぬいぐるみ８１からスマートフォン８０に音声信号を送信する。
（５）操作者がイヤホン８３を用いて、上記（４）の音声信号に基づいて再生される音声を聴く。

〔実施の形態６〕
図９は、本実施の形態に係るスマートフォン９０およびヘッドホン９１（電子機器）の概略構成を示す図である。図９に示すスマートフォン９０は、音声信号送信装置１（図１参照）を備えている。また、図９に示すヘッドホン９１は、音声出力装置１６（図１参照）を備えており、スマートフォン９０の音声信号送信装置１と無線通信を行う、いわゆる無線ヘッドホンである。

スマートフォン９０およびヘッドホン９１によれば、スマートフォン９０に格納された音楽（第１の音声信号に基づいて再生される音声）をヘッドホン９１から出力する。これにより、ヘッドホン９１から出力される当該音楽の頭切れを防ぐことができる。

〔実施の形態７〕
図１０は、本実施の形態に係るスマートフォン１００およびヘッドセット１０１（電子機器）の概略構成を示す図である。図１０に示すスマートフォン１００は、音声信号送信装置１（図１参照）および音声出力装置１６（図１参照）を備えている。また、図１０に示すヘッドセット１０１も、音声信号送信装置１および音声出力装置１６を備えている。スマートフォン１００の音声信号送信装置１とヘッドセット１０１の音声出力装置１６とで、１つの通信系統が構成されていると共に、スマートフォン１００の音声出力装置１６とヘッドセット１０１の音声信号送信装置１とで、別の１つの通信系統が構成されている。なお、図１０に示すヘッドセット１０１は、スマートフォン１００の音声信号送信装置１および音声出力装置１６と無線通信を行う、いわゆる無線ヘッドセットである。

スマートフォン１００およびヘッドセット１０１によれば、スマートフォン１００による通話時において、ヘッドセット１０１を利用して通話相手の声を聴いたり、ヘッドセット１０１のマイクで通話相手に声を送信したりすることができる。

〔ソフトウェアによる実現例〕
音声信号送信装置１の制御ブロック（特に送信制御部１４）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、音声信号送信装置１は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る音声信号送信装置１は、音声出力装置１６に対して音声信号を送信する装置であって、ユーザによって再生が指示された第１の音声信号を送信するとともに、前記第１の音声信号の再生開始に先だって、ユーザによって再生が指示されていない音声信号であって、付加的な音声信号である第２の音声信号の少なくとも一部が再生されるように、前記第２の音声信号を自動的に送信する送信制御部１４を備えている。

上記の構成によれば、第１の音声信号の再生開始に先だって、第２の音声信号を送信する。このため、音声出力装置から出力される音声に頭切れが生じた場合、第２の音声信号に基づいて再生される音声の先頭が欠けてしまう虞はあるものの、第１の音声信号に基づいて再生される音声の先頭が欠けてしまう虞を低減することができる。

また、上記の構成によれば、第１の音声信号の再生に先だって付加的な音声を送信するため、原理的には第１の音声信号に遅延が生じない。つまり、第１の音声信号に遅延時間を設けることなく、第１の音声信号に基づいて再生される音声の頭切れを防止することができる。

本発明の態様２に係る音声信号送信装置１は、上記態様１において、前記第２の音声信号は、特定波長の連続音声、または複数の波長の音がランダムまたは一定の規則により混成されたノイズ音声を含む。

上記の構成によれば、第２の音声信号によって規定される音声によって、聴取者が第１の音声信号によって規定される音声を聞き取ることを阻害されることを軽減し、また、第２の音声信号によって規定される音声が聴取者に意識されることによって、聴取者に違和感を与えることを軽減することができる。

本発明の態様３に係る音声信号送信装置１は、上記態様２において、前記ノイズ音声は、ホワイトノイズ、ブラウンノイズ、ピンクノイズ、ブルーノイズ、又はバイオレットノイズのいずれかである。

上記の構成によれば、第２の音声信号に用いるノイズ音声として、種々の周知のノイズ音声を利用することができる。

本発明の態様４に係る音声信号送信装置１は、上記態様１から３のいずれかにおいて、前記送信制御部１４は、前記第１の音声信号の再生開始１秒前以内に前記第２の音声信号の少なくとも一部を再生させる。

上記の構成によれば、再生遅延をできるだけ抑制しつつ、第１の音声信号に基づいて再生される音声に、頭切れが生じることを抑制することができる。

本発明の態様５に係る音声信号送信装置１は、上記態様１から４のいずれかにおいて、前記送信制御部１４は、前記第１の音声信号によって規定される音声の冒頭の音圧が小さいほど、前記第２の音声信号によって規定される音声の音圧が大きくなるように生成された、前記第２の音声信号を送信する。

第１の音声信号によって規定される音声の冒頭の音圧が小さい（例えば、当該冒頭の音声が子音である）場合、第２の音声信号によって規定される音声の音圧が小さいと、第１の音声信号によって規定される音声に頭切れが生じる虞がある。上記の構成によれば、この虞を防ぐ効果を奏する。

本発明の態様６に係る音声信号送信装置１は、上記態様１から５のいずれかにおいて、前記送信制御部１４は、前記第１の音声信号の再生開始タイミングを前記第１の音声信号の送信前に事前特定または事前推定する。

上記の構成によれば、第１の音声信号の再生開始タイミングを特定または推定した上で、第２の音声信号を適切なタイミングで送信することが可能となる。

本発明の態様７に係る音声信号送信装置１は、上記態様１から６のいずれかにおいて、前記送信制御部１４は、少なくとも１つの前記第１の音声信号に基づいて再生される音声が途切れる時間が所定の長さ以上であるとき、前記時間の少なくとも一部において前記第２の音声信号が再生されるように、前記第２の音声信号を送信する。

上記の構成によれば、第１の音声信号によって規定される音声に句読点（音声が途切れる）が含まれている場合であっても、当該句読点のタイミングにおいて音声出力装置が省電力状態に移行することを防ぐことができる。これにより、句読点の後の音声に頭切れが生じることを防ぐ効果を奏する。

本発明の態様８に係る音声信号送信方法は、音声出力装置１６に対して音声信号を送信する音声信号送信装置１における方法であって、ユーザによって再生が指示された第１の音声信号を送信するとともに、前記第１の音声信号の再生開始に先だって、ユーザによって再生が指示されていない音声信号であって、付加的な音声信号である第２の音声信号の少なくとも一部が再生されるように、前記第２の音声信号を自動的に送信する送信制御工程を含んでいることを特徴としている。

上記の構成によれば、態様１と同様の効果を奏する。

本発明の各態様に係る各工程は、コンピュータによって実現してもよく、この場合には、コンピュータを上記工程として動作させることにより上記工程をコンピュータにて実現させる制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

１音声信号送信装置
２再生指示受信部
３第１の音声信号格納部
４ノイズ音声格納部
５ユーザ履歴記憶部
６句読点特定部
７音圧検出部
８音圧調整部
９再生開始タイミング特定／推定部
１０時間調整部
１１ミキサー
１２変調部
１３送信部
１４送信制御部
１５記憶部
１６音声出力装置
１７受信部
１８復調部
１９Ｄ／Ａ変換器
２０スピーカ
２１タイマー
３０、３１、３４、３５、４０、４１、４５、４６、
５０、５１、５４、５５、６０、６１、６４、６５第１の音声信号
３２、４２、４３、４８、
５２、５３、６２、６３、６７第２の音声信号
３６、４７、５６、５７、６６信号欠損部
３３、３７、４４、４９、５８、５９、５Ａ、６Ａ、６Ｂ期間
７０、８０、９０、１００スマートフォン
７１、８１ぬいぐるみ
７２、８２操作画面
８３イヤホン
９１ヘッドホン
１０１ヘッドセット

Claims

音声出力装置に対して音声信号を送信する音声信号送信装置であって、
ユーザによって再生が指示された第１の音声信号を送信するとともに、前記第１の音声信号の再生開始に先だって、ユーザによって再生が指示されていない音声信号であって、付加的な音声信号である第２の音声信号の少なくとも一部が再生されるように、前記第２の音声信号を自動的に送信する送信制御部を備えることを特徴とする音声信号送信装置。
前記第２の音声信号は、特定波長の連続音声、または複数の波長の音がランダムまたは一定の規則により混成されたノイズ音声を含むことを特徴とする請求項１に記載の音声信号送信装置。
前記ノイズ音声は、ホワイトノイズ、ブラウンノイズ、ピンクノイズ、ブルーノイズ、又はバイオレットノイズのいずれかであることを特徴とする請求項２に記載の音声信号送信装置。
前記送信制御部は、前記第１の音声信号の再生開始１秒前以内に前記第２の音声信号の少なくとも一部を再生させることを特徴とする請求項１から３のいずれか１項に記載の音声信号送信装置。
前記送信制御部は、前記第１の音声信号によって規定される音声の冒頭の音圧が小さいほど、前記第２の音声信号によって規定される音声の音圧が大きくなるように生成された、前記第２の音声信号を送信することを特徴とする請求項１から４のいずれか１項に記載の音声信号送信装置。
前記送信制御部は、前記第１の音声信号の再生開始タイミングを前記第１の音声信号の送信前に事前特定または事前推定することを特徴とする請求項１から５のいずれか１項に記載の音声信号送信装置。
前記送信制御部は、少なくとも１つの前記第１の音声信号に基づいて再生される音声が途切れる時間が所定の長さ以上であるとき、前記時間の少なくとも一部において前記第２の音声信号が再生されるように、前記第２の音声信号を送信することを特徴とする請求項１から６のいずれか１項に記載の音声信号送信装置。
音声出力装置に対して音声信号を送信する音声信号送信装置における音声信号送信方法であって、
ユーザによって再生が指示された第１の音声信号を送信するとともに、前記第１の音声信号の再生開始に先だって、ユーザによって再生が指示されていない音声信号であって、付加的な音声信号である第２の音声信号の少なくとも一部が再生されるように、前記第２の音声信号を自動的に送信する送信制御工程を含んでいることを特徴とする音声信号送信方法。
請求項８に記載の送信制御工程をコンピュータに実行させるための制御プログラム。
請求項９に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。