JP7696096B2

JP7696096B2 - 録音装置、録音システム、及びそれらの録音方法

Info

Publication number: JP7696096B2
Application number: JP2023204187A
Authority: JP
Inventors: 進也鈴木; 健志田方; 滋之山北
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2025-06-20
Anticipated expiration: 2043-12-01
Also published as: JP2025089157A

Description

本開示は、骨導マイクおよび気導マイクを備え、利用者の発声を録音する録音装置、録音システム、及びそれらの録音方法に関する。

従来、利用者の顎や頭部の骨の振動を利用することにより、利用者の発声を収音する骨導マイクが普及している。骨導マイクの収音特性（例えば、収音された音の周波数特性）は、空気の振動を利用する一般的な気導マイクとは異なる。一般に、骨導マイクは、例えば比較的ノイズの多い環境における収音により適していることが知られている。また、そのような骨導マイクおよび気導マイクの収音特性の違いを利用した技術が開発されている。

例えば、利用者によって楽曲が歌唱された際に、骨伝導マイク（すなわち、骨導マイク）および空気伝導マイク（すなわち、気導マイク）から同時に入力された歌唱音を、空気伝導録音データ及び骨伝導録音データとして記録部に記録し、その記録されている空気伝導録音データ及び骨伝導録音データからなる組み合わせの録音データを同期再生する録音再生システムが存在する（特許文献１を参照）。これにより、利用者は、再生された自らの歌唱音を違和感なく聴き取ることができる。

特開２０１０－１７６０４１号公報

ところで、骨導マイクおよび気導マイクを備えた録音装置によって生成された録音データに複数の人物の発声が含まれる場合がある。例えば、録音装置の利用者（例えば、録音装置を所持する人物）およびその周囲に存在する人物の会話を録音する場合などである。一方、そのような複数の人物の発声を含む録音データについて、利用者の発声とその周囲の人物の発声とを分離して利用したい場合がある。そのような発声の利用には、例えば、利用者の発声とその周囲の人物の発声とを個別に再生することや、利用者の発声とその周囲の人物の発声とを個別にテキスト化することなどが含まれる。

これに対し、上記特許文献１に記載の従来技術によれば、骨導マイクおよび気導マイクの収音特性の違いを利用することにより、利用者は、録音された自らの歌唱音を違和感なく聴くことができる。しかし、その従来技術では、複数の人物が発声する環境において録音が行われる場合に、利用者の発声をその周囲の人物の発声と分離して利用することについては全く想定されていない。

そこで、本開示は、骨導マイクおよび気導マイクを用いて利用者を含む複数の人物の発声が収音される場合に、利用者の発声とその周囲の人物の発声とを分離して利用可能とする録音装置、録音システム、及びそれらの録音方法を提供することを主な目的とする。

本開示の録音装置は、利用者の発声を収音して骨導音信号を生成する骨導マイクと、前記利用者を含む複数の人物の発声を収音して気導音信号を生成する気導マイクと、前記気導音信号に基づく前記複数の人物の前記発声から前記骨導音信号に基づく前記利用者の前記発声を分離するための処理を実行することにより、分離音信号を生成する音声分離部と、前記骨導音信号に基づき生成された前記利用者の前記発声を含む骨導音データ、及び前記分離音信号に基づき生成された前記利用者以外の前記人物の前記発声を含む分離音データをそれぞれ記憶する記憶部と、備えた構成とする。

本開示の録音システムは、複数の利用者における各利用者によってそれぞれ使用されるマイクセットと、前記各マイクセットからの音声信号をそれぞれ取得するサーバとを備え、前記各マイクセットは、前記各利用者の発声を収音して骨導音信号を生成する骨導マイクと、前記各利用者を含む複数の人物の発声を収音して気導音信号を生成する気導マイクと、を有し、前記サーバは、前記骨導音信号に基づく骨導音データと、前記気導音信号に基づく気導音データとを、前記各マイクセットからそれぞれ取得する音声データ取得部と、前記音声データ取得部によって取得された複数の前記気導音データを合成することにより、合成気導音データを生成する気導音データ合成部と、前記合成気導音データに基づく合成音声から、少なくとも１つの前記マイクセットに対応する前記骨導音データに基づく前記利用者の前記発声を分離するための処理を実行することにより分離音データを生成する音声データ分離部と、前記骨導音データと、前記分離音データとをそれぞれ記憶する記憶部と、を有する構成とする。

本開示の録音方法は、録音装置の録音方法であって、前記録音装置は、利用者の発声を収音して骨導音信号を生成する骨導マイクと、前記利用者を含む複数の人物の発声を収音して気導音信号を生成する気導マイクと、を備え、前記気導音信号に基づく前記複数の人物の前記発声から前記骨導音信号に基づく前記利用者の前記発声を分離するための処理を実行することにより分離音信号を生成し、前記骨導音信号に基づき前記利用者の前記発声を含む骨導音データを生成し、かつ前記分離音信号に基づき前記利用者以外の前記人物の前記発声を含む分離音データを生成し、前記骨導音データおよび前記分離音データをそれぞれ記憶する構成とする。

本開示の録音方法は、録音システムの録音方法であって、前記録音システムは、複数の利用者における各利用者によってそれぞれ使用されるマイクセットと、前記各マイクセットからの音声信号をそれぞれ取得するサーバとを備え、前記各マイクセットは、前記各利用者の発声を収音して骨導音信号を生成する骨導マイクと、前記各利用者を含む複数の人物の発声を収音して気導音信号を生成する気導マイクと、を有し、前記サーバは、前記骨導音信号に基づく骨導音データと、前記気導音信号に基づく気導音データとを、前記各マイクセットからそれぞれ取得し、前記音声データ取得部によって取得された複数の前記気導音データを合成することにより、合成気導音データを生成し、前記合成気導音データに基づく合成音声から、少なくとも１つの前記マイクセットに対応する前記骨導音データに基づく前記利用者の前記発声を分離するための処理を実行することにより分離音データを生成し、前記骨導音データと、前記分離音データとをそれぞれ記憶する構成とする。

本開示によれば、骨導マイクおよび気導マイクを用いて利用者を含む複数の人物の発声が収音される場合に、利用者の発声とその周囲の人物の発声とを分離して利用することが可能となる。

第１実施形態に係る録音装置の使用状態を示す斜視図図１に示されたイヤホンの分解斜視図第１実施形態に係る録音装置の構成を示す機能ブロック図図１に示された録音装置の使用例を示す説明図第１実施形態に係る録音装置における設定画面の一例（（Ａ）ボイスレコーダ設定画面、（Ｂ）文字起こし設定画面）を示す説明図第２実施形態に係る録音装置を備えた録音システムの構成を示す機能ブロック図図６に示された録音システムの使用例を示す説明図第２実施形態に係る録音装置における設定画面の一例（（Ａ）ボイスレコーダ設定画面、（Ｂ）文字起こし設定画面）を示す説明図第３実施形態に係る録音装置を備えた録音システムの構成を示す機能ブロック図

前記課題を解決するためになされた第１の発明は、利用者の発声を収音して骨導音信号を生成する骨導マイクと、前記利用者を含む複数の人物の発声を収音して気導音信号を生成する気導マイクと、前記気導音信号に基づく前記複数の人物の前記発声から前記骨導音信号に基づく前記利用者の前記発声を分離するための処理を実行することにより、分離音信号を生成する音声分離部と、前記骨導音信号に基づき生成された前記利用者の前記発声を含む骨導音データ、及び前記分離音信号に基づき生成された前記利用者以外の前記人物の前記発声を含む分離音データをそれぞれ記憶する記憶部と、備えた構成とする。

これによると、骨導マイクおよび気導マイクを用いて利用者を含む複数の人物の発声が収音される場合に、利用者の発声を含む骨導音データと、利用者以外の人物の発声を含む分離音データとがそれぞれ記憶されるため、利用者の発声とその周囲の人物の発声とを分離して利用することが可能となる。

また、第２の発明は、前記骨導音信号が伝送される骨導音伝送路と、前記気導音信号が伝送される気導音伝送路と、を更に備え、前記音声分離部は、前記気導音伝送路を伝送される前記気導音信号から前記骨導音伝送路を伝送される前記骨導音信号を減算することにより、前記分離音信号を生成する構成とする。

これによると、簡易な構成によって利用者以外の人物の発声を含む分離音信号を生成することができる。

また、第３の発明は、前記骨導音伝送路において、前記分離音信号の生成に用いられる前記骨導音信号から前記利用者の前記発声に基づく音声信号を抽出するローパスフィルタを更に備えた構成とする。

これによると、ローパスフィルタによって抽出された利用者の発声に基づく音声信号によって、利用者を含む複数の人物の発声から利用者の発声のみをより精度良く分離することができる。

また、第４の発明は、前記骨導音伝送路において、前記分離音信号の生成に用いられる前記骨導音信号におけるノイズ成分を除去または低減するノイズキャンセラを更に備えた構成とする。

これによると、ノイズキャンセラによってノイズ成分が除去または低減された音声信号によって、利用者を含む複数の人物の発声から利用者の発声のみをより精度良く分離することができる。

また、第５の発明は、前記骨導音データに基づく音声と前記分離音データに基づく音声とを選択的に再生可能な音声再生部を更に備えた構成とする。

これによると、利用者の発声とその周囲の人物の発声とを分離して再生することができる。

また、第６の発明は、前記骨導音データに基づく音声と前記分離音データに基づく音声との音声認識処理を選択的に実行することにより、テキスト変換処理を実行可能な音声認識部を更に備えた構成とする。

これによると、利用者の発声とその周囲の人物の発声とを分離してテキスト化することができる。

また、第７の発明は、複数の利用者における各利用者によってそれぞれ使用されるマイクセットと、前記各マイクセットからの音声信号をそれぞれ取得するサーバとを備え、前記各マイクセットは、前記各利用者の発声を収音して骨導音信号を生成する骨導マイクと、前記各利用者を含む複数の人物の発声を収音して気導音信号を生成する気導マイクと、を有し、前記サーバは、前記骨導音信号に基づく骨導音データと、前記気導音信号に基づく気導音データとを、前記各マイクセットからそれぞれ取得する音声データ取得部と、前記音声データ取得部によって取得された複数の前記気導音データを合成することにより、合成気導音データを生成する気導音データ合成部と、前記合成気導音データに基づく合成音声から、少なくとも１つの前記マイクセットに対応する前記骨導音データに基づく前記利用者の前記発声を分離するための処理を実行することにより分離音データを生成する音声データ分離部と、前記骨導音データと、前記分離音データとをそれぞれ記憶する記憶部と、を有する構成とする。

これによると、骨導マイクおよび気導マイクを有するマイクセットをそれぞれ用いて複数の利用者の発声が収音される場合に、各利用者の発声を含む骨導音データと、特定の利用者（すなわち、複数の利用者の中から選択された利用者）の発声を含む分離音データとがそれぞれ記憶されるため、特定の利用者の発声とそれ以外の利用者の発声とを分離して利用することが可能となる。

また、第８の発明は、前記複数の利用者のいずれかにより使用される入力装置を更に備え、前記サーバは、前記入力装置への入力操作によって選択された少なくとも１つの前記マイクセットの情報を取得し、前記音声データ分離部は、選択された少なくとも１つの前記マイクセット以外の前記マイクセットに対応する前記骨導音データに基づき、前記分離音データを生成する構成とする。

これによると、利用者は、自ら選択した特定の利用者（自身を含む）の発声とそれ以外の利用者の発声とを分離して利用することが可能となる。

また、第９の発明は、録音装置の録音方法であって、前記録音装置は、利用者の発声を収音して骨導音信号を生成する骨導マイクと、前記利用者を含む複数の人物の発声を収音して気導音信号を生成する気導マイクと、を備え、前記気導音信号に基づく前記複数の人物の前記発声から前記骨導音信号に基づく前記利用者の前記発声を分離するための処理を実行することにより分離音信号を生成し、前記骨導音信号に基づき前記利用者の前記発声を含む骨導音データを生成し、かつ前記分離音信号に基づき前記利用者以外の前記人物の前記発声を含む分離音データを生成し、前記骨導音データおよび前記分離音データをそれぞれ記憶する構成とする。

また、第１０の発明は、録音システムの録音方法であって、前記録音システムは、複数の利用者における各利用者によってそれぞれ使用されるマイクセットと、前記各マイクセットからの音声信号をそれぞれ取得するサーバとを備え、前記各マイクセットは、前記各利用者の発声を収音して骨導音信号を生成する骨導マイクと、前記各利用者を含む複数の人物の発声を収音して気導音信号を生成する気導マイクと、を有し、前記サーバは、前記骨導音信号に基づく骨導音データと、前記気導音信号に基づく気導音データとを、前記各マイクセットからそれぞれ取得し、取得された複数の前記気導音データを合成することにより、合成気導音データを生成し、前記合成気導音データに基づく合成音声から、少なくとも１つの前記マイクセットに対応する前記骨導音データに基づく前記利用者の前記発声を分離するための処理を実行することにより分離音データを生成し、前記骨導音データと、前記分離音データとをそれぞれ記憶する構成とする。

以下、本開示の実施の形態を、図面を参照しながら説明する。

（第１実施形態）
図１は、本開示の第１実施形態に係る録音装置１の使用状態を示す斜視図である。図２は、図１に示されたイヤホン２の分解斜視図である。

図１に示すように、録音装置１は、収音機能を有するイヤホン２と、イヤホン２によって収音された音声を録音するための信号処理を行う録音装置本体３（以下、「装置本体３」という。）とを含む。ここでは、イヤホン２が利用者（すなわち、録音装置１を所持する人物）の右側の耳５に挿入される場合の例が示されている。ただし、イヤホン２は利用者の左側の耳に挿入されて使用されてもよい。また、録音装置１は、左右一対のイヤホン２を備えていてもよい。

録音装置１において、装置本体３は、信号線４を介してイヤホン２に接続されている。ただし、イヤホン２と装置本体３とは、Ｗｉｆｉ（登録商標）やＢｌｕｅｔｏｏｔｈ（登録商標）等に基づく無線信号を介して互いに通信可能に接続されてもよい。

また、イヤホン２は、装置本体３と同様の機能（または、その少なくとも一部の機能）を更に備えてもよい。つまり、録音装置１では、装置本体３（または、その少なくとも一部の構成要素）がイヤホン２の筐体内部に一体化された構成であってもよい。なお、装置本体３がイヤホン２の構成要素の一部（例えば、後述する気導マイク１１）を備えてもよい。

図２に示すように、イヤホン２は、外装筐体９と、外装筐体９に収容された骨導マイク１０および気導マイク１１と、スピーカ１２と、内部筐体１３と、マイクラバー１５とを備える。

外装筐体９は、イヤホン２の外殻を構成する。外装筐体９は、利用者の耳の内側部分（奥側部分）を構成するケース９Ａと、利用者の耳の外側部分を構成するカバー９Ｂとを備えている。ケース９Ａにカバー９Ｂが外側から重ね合わされることによって、外装筐体９が構成されている。外装筐体９には、信号線４を外部に導くためのケーブルキャップ１８が設けられている。

骨導マイク（骨伝導マイク）１１は、主に声帯振動伝達部位に伝達する声帯振動を収音できるように、利用者の耳に設けられるデバイスであって、イヤホン２を装着した利用者の発声を主として収音する。骨導マイク１０は、音声振動を電気信号に変換するための素子（例えば、振動検出素子）を備えている。つまり、骨導マイク１０は、利用者の発声等の音を収音して電気信号を生成することができる。骨導マイク１０によって生成された電気信号は、信号線４を介して装置本体３に入力される。骨導マイク１０は、音声振動として利用者の体内を伝搬する声帯振動を収音するため、利用者の発声以外の周囲音の影響を受け難いという性質を有する。

気導マイク１１は、音声振動としての空気の振動を電気信号に変換するための素子（例えば、振動検出素子）を備えたマイクロフォンである。気導マイク１１は、利用者の発声や、利用者の周囲で発生する周囲音（本実施形態では、利用者の周囲の人物の発声）などを収音する。気導マイク１１によって生成された電気信号は、信号線４を介して装置本体３に入力される。ただし、骨導マイク１０および気導マイク１１は、信号線４を構成する互いに異なる伝送路を介して装置本体３にそれぞれ接続されている。

スピーカ１２は、装置本体３から入力された電気信号を、利用者の発声等の音に変換して出力する。スピーカ１２には、公知の構成を採用することができる。また、スピーカ１２の代わりに骨導レシーバ（骨伝導レシーバ）が用いられてもよい。例えば、装置本体３が、予め録音された利用者の発声や周囲音に関する電気信号を出力したとき、スピーカ１２はそれらの音（すなわち、再生音）を出力する。なお、スピーカ１２から出力される音には、予め録音された音に限らず、装置本体３で生成された（または、装置本体３が外部から取得された）任意の音が含まれ得る。

内部筐体１３は、スピーカ１２の再生音を外耳道に導くための部材であり、スピーカ１２の再生音を外耳道に導く通路１３Ａを備えている。スピーカ１２は、内部筐体１３の通路１３Ａの一端側に配置される。

通路１３Ａの他端側には、外装筐体９（詳細には、ケース９Ａ）に設けられた開口９Ｃを介して、外装筐体９の外部にまで延びる筒状の筒部１３Ｂが設けられている。本実施形態では、筒部１３Ｂの延出端に、利用者の外耳道に全周に渡って当接する先端ラバー１６が設けられている。先端ラバー１６が外耳道に全周に渡って当接することによって、外耳道の気密性が確保されて、スピーカ１２からの再生音が効果的に利用者に伝えられる。

マイクラバー１５は、骨導マイク１０を弾性的に保持する。マイクラバー１５は、耳５の近傍の骨を介して声帯振動が伝わる部位（以下、声帯振動伝達部位という。）と骨導マイク１０とを接続する。これにより、声帯振動伝達部位に伝わる声帯振動が骨導マイク１０に伝わり、骨導マイク１０は、マイクラバー１５を介して耳周辺の骨及び皮膚に伝搬する声帯振動を検出することによって収音する。

気導マイク１１は、外装筐体９とスピーカ１２との間に配置されている。スピーカ１２が発する音声振動が気導マイク１１に伝わることを防止するため、気導マイク１１とスピーカ１２との間には樹脂部材１７が設けられている。気導マイク１１は主として、利用者の発声が空気を伝搬して耳近傍の気導マイク１１にて収音する。

装置本体３は、イヤホン２によって収音された音（すなわち、生成された電気信号）に対して所定の処理を実行し、その処理された音を音声データとして記憶（すなわち、録音）する。また、装置本体３は、録音した音声を再生（すなわち、ボイスレコーダとして機能）したり、その音声をテキスト変換したりすることで利用者に利用させることができる。

装置本体３は、ＣＰＵ等のプロセッサ、ＲＡＭやＲＯＭ等のメモリ、ＳＳＤやＨＤＤ等のストレージ、タッチパネル等のディスプレイ、ネットワークインタフェース、及び音声入出力端子などを備えた端末（ここでは、スマートフォン）によって構成されている。ただし、装置本体３の構成は、スマートフォンには限定されず、例えば、音声入出力端子を備えたタブレットや各種コンピュータによっても構成され得る。さらに、装置本体３は、ロジックデバイスと、各種アナログデバイスとの組み合わせ等によっても実現され得る。

図３は、第１実施形態に係る録音装置１の構成を示す機能ブロック図である。図４は、図１に示された録音装置１の使用例を示す説明図である。図５は、録音装置１における設定画面の一例（（Ａ）ボイスレコーダ設定画面５６、（Ｂ）文字起こし設定画面５９）を示す説明図である。

図３に示すように、録音装置１において、装置本体３には骨導マイク１０で生成された電気信号（以下、「骨導音信号」という。）が信号線４を介して入力される。同様に、装置本体３には気導マイク１１で生成された電気信号（以下、「気導音信号」という。）が信号線４を介して入力される。骨導音信号は、主として利用者の発声に基づく信号である。また、気導音信号は、周囲音や複数の人物の発声（利用者の発声を含む）に基づく信号である。なお、図示は省略するが、装置本体３は、骨導マイク１０および気導マイク１１から入力されるアナログ信号をそれぞれディジタル信号に変換するＡＤコンバータと、スピーカ１２に出力されるディジタル信号をアナログ信号に関するＤＡコンバータとを備え得る。

装置本体３は、骨導マイク１０から入力された骨導音信号を伝送する骨導音伝送路２１を有する。また、装置本体３は、気導マイク１１から入力された気導音信号を伝送する気導音伝送路２２を有する。また、装置本体３は、骨導音伝送路２１および気導音伝送路２２との間を接続する接続路２３を有する。

また、装置本体３は、骨導マイク１０および気導マイク１１によってそれぞれ収音された音を音声データとして録音するための処理を実行する録音処理部２５を有する。また、装置本体３は、録音された音声データを再生する（すなわち、スピーカ１２から出力させる）音声再生部２６と、録音された音声データの音声認識を行う音声認識部２７とを有する。さらに、装置本体３は、外部装置（例えば、外部のサーバ）と通信するための通信部２９を有する。

骨導音伝送路２１には、骨導マイク１０で生成された骨導音信号を増幅する増幅部３１が設けられている。増幅部３１によって増幅された骨導音信号は、録音処理部２５のチャンネルＣＨ１に入力される。録音処理部２５には、骨導音信号から利用者の発声のみを生成するための処理を行う第１分離処理部４０が設けられている。第１分離処理部４０は、増幅部３１によって増幅された骨導音信号から利用者の発声に関する音声信号を抽出する（すなわち、周囲音やエコー成分を排除する）ためのＬＰＦ３３（ローパスフィルタ）を含む。ＬＰＦ３３によって抽出された音声信号は、第２分離処理部４１に送られる。なお、第１分離処理部４０では、ＬＰＦ３３の代わりに、骨導音信号におけるノイズ成分を除去または低減するノイズキャンセラが用いられてもよい。

第２分離処理部４１は、気導音信号に基づく複数の人物の発声から利用者の発声を取除いた分離音データを生成するための処理を行う。第２分離処理部４１では、ＬＰＦ３３によって抽出された音声信号に基づき、骨導音データ４５が生成される。生成された骨導音データ４５は、録音処理部２５に設けられた記憶部４２に記憶される。また、第２分離処理部４１では、ＬＰＦ３３によって抽出された音声信号が、接続路２３を介して、分離音信号を生成する演算部３６（音声分離部の一例）に入力される。

一方、気導音伝送路２２には、気導マイク１１で生成された気導音信号を増幅する増幅部３５が設けられている。その増幅された音声信号は、録音処理部２５のチャンネルＣＨ２に入力される。第２分離処理部４１では、その増幅された音声信号に基づき、気導音データ６１が生成される。生成された気導音データ６１は、記憶部４２に記憶される。また、第２分離処理部４１では、増幅部３５によって増幅された音声信号が、接続路２３を介して、演算部３６に入力される。

演算部３６は、増幅部３５によって増幅された音声信号（すなわち、気導音信号）から、ＬＰＦ３３によって抽出された音声信号（すなわち、骨導音信号）を減算することにより、分離音信号を生成する。さらに、演算部３６は、その分離音信号に基づき分離音データ４６を生成する。生成された分離音データ４６は、記憶部４２に記憶される。

このように、装置本体３において、骨導音伝送路２１からの骨導音信号および気導音伝送路２２からの分離音信号は、それぞれ録音処理部２５の異なるチャンネル（すなわち、チャンネルＣＨ１、チャンネルＣＨ２）に入力される。なお、各伝送路２１－２３、増幅部３１、３５、及び演算部３６は、それぞれ電子素子や回路によって構成され得る。

録音処理部２５は、異なるチャンネルＣＨ１、ＣＨ２からそれぞれ入力される骨導音信号および分離音信号に対して録音処理を実行する。その録音処理により、骨導音信号、分離音信号、及び気導音信号からそれぞれ骨導音データ４５、分離音データ４６、及び気導音データ６１が生成される。生成された骨導音データ４５、分離音データ４６、及び気導音データ６１は、それぞれ記憶部４２に記憶される。

録音処理部２５による録音処理は、少なくとも１つのプロセッサが所定の制御プログラム（例えば、録音用ソフトウェア）を実行することにより実現可能である。なお、録音処理部２５による電気信号（すなわち、音声信号）の処理については、公知の処理を採用することが可能であり、例えばサンプリングレート、ビット深度、及び録音のフォーマットなどが予め設定される。

記憶部４２は、録音装置１の処理に必要なデータや情報を記憶するためのストレージ等の記憶装置を含む。

音声再生部２６は、記憶部４２に記憶された音声データ（ここでは、骨導音データ４５および分離音データ４６）を再生するための再生処理を実行する。その再生処理によって、対応する音声信号が生成される。生成された音声信号は、イヤホン２に送られ、スピーカ１２から対応する音声が出力される。

音声再生部２６による再生処理は、少なくとも１つのプロセッサが所定の制御プログラム（例えば、音声再生用ソフトウェア）を実行することにより実現可能である。なお、音声再生部２６による音声データの処理については、公知の処理を採用することが可能である。

音声認識部２７は、記憶部４２に記憶された音声データに含まれる音声を認識するための音声認識処理（テキスト変換処理の一例）を実行する。その音声認識処理によって、音声認識された音声データがテキストに変換され、対応するテキストデータが生成される。生成されたテキストデータは、記憶部４２に記憶される。

音声認識部２７による音声認識処理は、少なくとも１つのプロセッサが所定の制御プログラム（例えば、音声認識用ソフトウェア）を実行することにより実現可能である。音声認識部２７による音声認識処理には、予め生成された機械学習モデルを備えた音声認識エンジンが用いられてもよい。なお、音声認識部２７による音声データの処理については、公知の処理を採用することが可能である。

通信部２９は、公知の通信プロトコルにしたがって、図示しない通信ネットワークを介して他の装置と無線通信または有線通信を行う。通信部２９は、アンテナや通信回路等を備えた通信装置を含み得る。

このように、録音装置１は、イヤホン２（すなわち、骨導マイク１０および気導マイク１１）を用いて利用者を含む複数の人物の発声が収音される場合に、利用者の発声（すなわち、骨導音データ４５）とその周囲の人物の発声（すなわち、分離音データ４６や気導音データ６１）とを分離して利用することができる。

次に、図４に基づき（図３を併せて参照）、録音装置１について、利用者を含む複数の人物の発声の収音及び録音ならびにその録音された発声の利用方法について説明する。

図４に示すように、録音装置１は、例えば病室における複数の人物による会話を録音し、その録音データを利用するために用いることができる。図４に示す例では、第１から第３の医療従事者５１Ａ－５１Ｃ（医師や看護師等を含む）の発声および患者５２の発声が録音装置１によって録音される。第１の医療従事者５１Ａは、録音装置１（図中にアイコンで示す。）の利用者である。つまり、第１の医療従事者５１Ａのみが録音装置１（少なくとも骨導マイク１０）を装着している。

第１の医療従事者５１Ａの発声は、骨導マイク１０および気導マイク１１によってそれぞれ収音される。また、第２及び第３の医療従事者５１Ｂ、５１Ｃの発声ならびに患者５２の発声は、気導マイク１１によって収音される。

収音された第１の医療従事者５１Ａの発声は、骨導マイク１０から装置本体３に対して骨導音信号として入力される。また、第１から第３の医療従事者５１Ａ－５１Ｃの発声および患者５２の発声（以下、全員の発声という。）は、気導マイク１１から装置本体３に対して気導音信号として入力される。

装置本体３では、第１の医療従事者５１Ａの発声を含む骨導音信号が、骨導音伝送路２１から録音処理部２５のチャンネルＣＨ１に入力される。録音処理部２５では、その骨導音信号に対して録音処理を実行することができる。これにより、主として第１の医療従事者５１Ａの発声を含む骨導音データ４５が生成され、記憶部４２に記憶される。

また、装置本体３では、第１から第３の医療従事者５１Ａ－５１Ｃの発声を含む気導音信号が、骨導音伝送路２１から録音処理部２５のチャンネルＣＨ２に入力される。録音処理部２５では、その気導音信号に対して録音処理を実行することができる。これにより、主として第１から第３の医療従事者５１Ａ－５１Ｃの発声を含む気導音データ６１が生成され、記憶部４２に記憶される。

さらに、録音処理部２５では、演算部３６により、第１の医療従事者５１Ａ以外の全員の発声を含む分離音信号が生成される。録音処理部２５は、その分離音信号に対して録音処理を実行することができる。これにより、主として第２及び第３の医療従事者５１Ｂ、５１Ｃの発声（すなわち、利用者の発声以外の周囲音）を含む分離音データ４６が生成され、記憶部４２に記憶される。

その後、録音装置１において利用者が所望の再生対象を選択して再生を指示すると、音声再生部２６は、その選択された再生対象に対応する音声データの再生処理を実行する。また、録音装置１において利用者が所望のテキスト変換対象を選択してテキスト変換を指示すると、音声認識部２７は、その選択されたテキスト変換対象に対応する音声データの音声認識処理を実行する。

録音装置１は、記憶部４２に記憶された音声データ（ここでは、骨導音データ４５、分離音データ４６、及び気導音データ６１）を利用者が利用するための設定画面を、装置本体３のディスプレイに表示することができる。

例えば、録音装置１は、図５（Ａ）に示すように、装置本体３のタッチパネルディスプレイ５５（すなわち、表示装置および入力装置）に、ボイスレコーダ設定画面５６を表示することができる。利用者は、ボイスレコーダ設定画面５６において、音声データの再生処理に関する入力操作を行うことができる。ボイスレコーダ設定画面５６では、利用者は、骨導音データ４５（図中の「利用者」に対応）、分離音データ４６（図中の「利用者以外（周囲）」に対応）、及び気導音データ６１（図中の「全て（利用者＋利用者以外）」に対応）の何れかを選択することが可能である。

なお、録音装置１は、表示装置としてタッチパネルディスプレイ５５の代わりに入力機能を有していないディスプレイを備えてもよい。その場合、録音装置１は、入力装置として公知の装置（例えば、キーボードなど）を備えることができる。

図５（Ａ）では、利用者が、利用者（すなわち、自身）の発声を再生対象として選択した例が示されている。そこで、利用者が実行ボタン５７を押下する（すなわち、再生を指示する）と、音声再生部２６が骨導音データ４５の再生処理を実行する。これにより、利用者は、スピーカ１２から出力される利用者（すなわち、自身）の発声を確認することができる。

同様に、利用者は、ボイスレコーダ設定画面５６において、利用者以外の周囲の人物の音声や、全ての人物（すなわち、利用者および利用者以外の周囲の人物）の音声を選択することもできる。例えば、利用者が、利用者以外の周囲の人物の音声を選択した後に実行ボタン５７を押下すると、音声再生部２６が分離音データ４６の再生処理を実行する。これにより、利用者は、スピーカ１２から出力される利用者の発声以外の周囲音（すなわち、第２及び第３の医療従事者５１Ｂ、５１Ｃの発声ならびに患者５２の発声）を確認することができる。

また例えば、録音装置１は、図５（Ｂ）に示すように、装置本体３のタッチパネルディスプレイ５５に、文字起こし設定画面５９を表示することができる。利用者は、文字起こし設定画面５９において、音声データの音声認識処理に関する入力操作を行うことができる。

図５（Ｂ）では、利用者が、利用者の発声以外の周囲音（すなわち、第２及び第３の医療従事者５１Ｂ、５１Ｃの発声ならびに患者５２の発声）の発声をテキスト変換対象として選択した例が示されている。そこで、利用者が実行ボタン５７を押下する（すなわち、テキスト変換を指示する）と、音声認識部２７が分離音データ４６の音声認識処理を実行する。これにより、第２及び第３の医療従事者５１Ｂ、５１Ｃの発声ならびに患者５２の発声がテキスト変換され、所定のフォーマットでテキストファイルが生成される。生成されたテキストファイルは記憶部４２に記憶される。

なお、録音装置１では、音声データの生成および記憶に関する処理は、利用者の指示（すなわち、入力操作）に応じて開始または停止されてもよい。また、録音装置１では、利用者は、自身の音声のみを記憶するための入力操作を行うこともできる。その場合、録音装置１では、骨導音データ４５のみが記憶部４２に記憶される。一方、利用者は、自身以外の音声（すなわち、周囲の人物の音声）のみを記憶するための入力操作を行うこともできる。その場合、録音装置１では、分離音データ４６のみが記憶部４２に記憶される。

このように、録音装置１では、利用者の発声を含む骨導音データ４５と、利用者以外の人物の発声を含む分離音データ４６と、利用者の発声およびその周囲の人物の発声を含む気導音データ６１とがそれぞれ記憶部４２に記憶されるため、利用者の周囲の全ての人物（利用者を含む）の発声を利用することに加え、利用者の発声とその周囲の人物の発声とを分離して利用（ここでは、音声再生やテキスト変換）することが可能となる。

（第２実施形態）
上述の第１実施形態では、複数の人物の発声（または会話）を録音する場合において、利用者のみが録音装置１を使用する（すなわち、骨導マイク１０を装着する）例を示した。一方、以下で説明する第２実施形態では、複数の録音装置１が準備され、複数の人物がそれぞれ対応する録音装置１の利用者となる（すなわち、複数の人物がそれぞれ骨導マイク１０を装着する）場合について説明する。

図６は、第２実施形態に係る録音装置１を備えた録音システム１００の構成を示す機能ブロック図である。図７は、図６に示された録音システム１００の使用例を示す説明図である。図８は、第２実施形態に係る録音装置１における設定画面の一例（（Ａ）ボイスレコーダ設定画面１５６、（Ｂ）文字起こし設定画面１５９）を示す説明図である。図６～図８に示された録音装置１では、上述の第１実施形態に係る録音装置１と同様の構成要素については、同一の符号が付されている。また、第２実施形態に係る録音装置１に関し、以下で特に言及しない事項については、上述の第１実施形態に係る録音装置１と同様である。

録音システム１００は、各利用者Ｕ１～ＵＮ（ただし、Ｎは、利用者の総数であって２以上の整数）がそれぞれ利用する録音装置１－１～１－Ｎと、録音装置１－１～１－Ｎによってそれぞれ生成された音声データを管理する管理サーバ１０１（サーバの一例）とを備える。図６では図示は省略されているが、録音装置１－２～１－Ｎは、録音装置１－１と同様の構成を有する。録音装置１－１～１－Ｎは、それぞれ通信ネットワーク１０３を介して管理サーバ１０１と通信可能に接続されている。以下では、録音装置１－１～１－Ｎを区別する必要がない場合には、録音装置１と総称する。

録音装置１の装置本体３において、気導音伝送路２２では、上述の演算部３６は省略されている。この場合、第２分離処理部４１は、分離音データを生成するための処理を行うことなく、骨導音データ４５および気導音データ６１のみを生成するための処理を行う。

録音処理部２５は、異なるチャンネルＣＨ１、ＣＨ２からそれぞれ入力される骨導音信号および気導音信号に対して録音処理を実行する。その録音処理により、骨導音信号および気導音信号からそれぞれ骨導音データ４５および気導音データ６１が生成される。生成された骨導音データ４５および気導音データ６１は、それぞれ記憶部４２に記憶される。記憶部４２に記憶された音声データは、通信部２９によって管理サーバ１０１に対して送信される。

管理サーバ１０１は、通信部１０５、制御部１０６、及び記憶部１０７を備える。

通信部１０５は、公知の通信プロトコルにしたがって、通信ネットワーク１０３を介して各録音装置１－１～１－Ｎとそれぞれ通信を行う。通信部１０５は、アンテナや通信回路等を備えた通信装置を含み得る。

制御部１０６は、音声データ取得部１１１、気導音データ合成部１１２、及び音声データ分離部１１３を有する。

音声データ取得部１１１は、各録音装置１－１～１－Ｎとの通信により、骨導音データ４５および気導音データ６１をそれぞれ取得する。それらの骨導音データ４５および気導音データ６１は、各録音装置１－１～１－Ｎにおける骨導マイク１０および気導マイク１１（以下、必要に応じて「マイクセット」という。）によりそれぞれ生成されたものである。

気導音データ合成部１１２は、音声データ取得部１１１によって取得された複数の気導音データ６１を合成する処理を実行することにより、合成気導音データを生成する。本実施形態では、気導音データ合成部１１２は、各録音装置１－１～１－Ｎから取得された全ての気導音データを合成する。ただし、気導音データ合成部１１２は、それらの気導音データの一部（例えば、利用者によって選択されたデータ）を合成することにより、合成気導音データを生成することも可能である。生成された合成気導音データには、例えば、録音装置１－１～１－Ｎの全ての利用者Ｕ１～ＵＮの音声が合成された合成音声が含まれる。

音声データ分離部１１３は、合成気導音データに基づく合成音声から、少なくとも１つの骨導マイク１０に対応する骨導音データに基づく利用者の発声を分離するための処理を実行することにより分離音データを生成する。

例えば、利用者の総数Ｎ＝３の場合（すなわち、利用者が３人の場合）、合成音声には、利用者Ｕ１～Ｕ３の音声が含まれる。例えば、音声データ分離部１１３は、その合成音声から、骨導音データ４５に基づく利用者Ｕ３の発声を分離する処理を実行することができる。この場合、分離される利用者Ｕ３の発声は、利用者Ｕ３が利用する録音装置１－３の骨導マイク１０で生成された骨導音信号に対応する音声に相当する。これにより、分離音データには、利用者Ｕ３の音声を除いた利用者Ｕ１、Ｕ２の音声が含まれる。利用者Ｕ１、Ｕ２の音声のデータは、利用者Ｕ１～Ｕ３の録音装置１－１～１－３のうちの少なくとも１つに送信され、その録音装置において利用（音声再生やテキスト変換）される。

なお、利用者の総数Ｎについては、３（人）に限らず種々の変更が可能である。また、音声データ分離部１１３によって合成音声から分離される利用者の発声（すなわち、分離対象の音声）についても、適宜変更することが可能である。

制御部１０６における各部１１１～１１３の機能の少なくとも一部は、少なくとも１つのプロセッサが所定の制御プログラムを実行することにより実現可能である。また、制御部１０６は、管理サーバ１０１の動作を統括的に制御可能である。

記憶部１０７は、管理サーバ１０１の処理に必要なデータや情報を記憶するためのストレージ等の記憶装置を含む。例えば、記憶部１０７には、各録音装置１－１～１－Ｎから取得した音声データや、管理サーバ１０１の処理によって生成された音声データ（合成気導音データおよび分離音データなど）が記憶される。

次に、図７に基づき（図６を併せて参照）、録音システム１００について、複数の人物（ここでは、利用者Ｕ１～Ｕ８）の発声の収音およびその収音された発声の利用方法について説明する。

例えば、図７に示すように、各録音装置１－１～１－８は、集合した状態の複数の利用者Ｕ１～Ｕ８による発声（または会話）をそれぞれ録音し、その録音データを利用するために用いられる。図７では、利用者Ｕ１～Ｕ８の発声がそれぞれ対応する録音装置１－１～１－８（図中にアイコンで示す。）の骨導マイク１０によって収音される。また、利用者Ｕ１～Ｕ８の発声は、全ての録音装置１－１～１－８の気導マイク１１によって収音され得る。

各録音装置１－１～１－８によって生成された骨導音データ４５および気導音データ６１は、それぞれ管理サーバ１０１に送信される。管理サーバ１０１は、受信した全ての気導音データ６１から合成気導音データを生成する。ただし、管理サーバ１０１は、受信した気導音データ６１の一部（例えば、何れかの利用者によって選択されたデータ）から合成気導音データを生成してもよい。また、録音装置１－１～１－８のうちのいずれか１つによって生成された気導音データ６１が全ての利用者Ｕ１～Ｕ８の明瞭な発声を含む場合には、管理サーバ１０１は、その１つの気導音データ６１を合成気導音データの代わりに用いることもできる。

次に、管理サーバ１０１は、合成気導音データに基づく合成音声から、利用者（または録音システム１００の管理者）によって選択された１以上の録音装置（すなわち、骨導マイク１０）に対応する骨導音データに基づく利用者の発声を分離するための処理を実行する。これにより、管理サーバ１０１では、少なくとも一部の利用者の発声のみを含む（すなわち、それ以外の利用者の発声が取り除かれた）分離音データが生成される。

生成された分離音データや、各録音装置１－１～１－８から取得された骨導音データ４５および気導音データ６１は、記憶部１０７に記憶される。記憶部１０７に記憶されたそれらのデータは、利用者Ｕ１～Ｕ８からの要求に応じて録音装置１－１～１－８に送信される。

利用者Ｕ１～Ｕ８の何れかが、対応する録音装置１－１～１－８において所望の再生対象を選択して再生を指示すると、音声再生部２６は、その選択された再生対象に対応する音声データの再生処理を実行する。また、利用者Ｕ１～Ｕ８の何れかが、所望のテキスト変換対象を選択してテキスト変換を指示すると、音声認識部２７は、その選択されたテキスト変換対象に対応する音声データの音声認識処理を実行する。

第１実施形態の場合と同様に、録音装置１は、管理サーバ１０１の記憶部１０７に記憶された音声データ（ここでは、分離音データ）を利用者Ｕ１～Ｕ８が利用するための設定画面を、装置本体３のディスプレイに表示することができる。

例えば、録音装置１－１は、図８（Ａ）に示すように、装置本体３のタッチパネルディスプレイ５５に、ボイスレコーダ設定画面１５６を表示することができる。利用者Ｕ１は、ボイスレコーダ設定画面１５６において、音声データの再生処理に関する入力操作を行うことができる。

図８（Ａ）では、利用者Ｕ１が、利用者Ｕ１（すなわち、自身）の発声を再生対象として選択した例（入力装置に対する入力操作の一例）が示されている。そこで、利用者Ｕ１が実行ボタン１５７を押下すると、利用者Ｕ１が選択した再生対象に関する情報（入力操作の情報の一例）が管理サーバ１０１に送信される。ここで、利用者Ｕ１が再生対象を選択することは、利用者Ｕ１が少なくとも１つのマイクセットを選択したことと同義である。管理サーバ１０１は、録音装置１－１から利用者Ｕ１が選択した再生対象に関する情報を取得することが可能である。音声データ分離部１１３は、利用者の発声を分離するための処理（すなわち、分離音データの生成）を、利用者Ｕ１によって選択された少なくとも１つのマイクセット（すなわち、再生対象）以外のマイクセットに含まれる骨導マイク１０に対応する骨導音データに基づき実行する。その後、録音装置１－１は、管理サーバ１０１によって生成された分離音データを取得する。そこで、音声再生部２６が、利用者Ｕ１の発声のみを含む（例えば、他の利用者Ｕ２～Ｕ８の発声が取り除かれた）分離音データの再生処理を実行する。これにより、利用者Ｕ１は、スピーカ１２から出力される自身の発声を確認することができる。

同様に、利用者Ｕ１は、ボイスレコーダ設定画面１５６において、利用者Ｕ１以外の他の利用者Ｕ２－Ｕ８の音声を選択することができる。また、利用者Ｕ１は、例えば複数の利用者の間の会話を確認したい場合、ボイスレコーダ設定画面１５６においてそれら複数の利用者の音声を選択することもできる。その音声の選択後に利用者Ｕ１が実行ボタン５７を押下すると、音声再生部２６が分離音データ４６の再生処理を実行する。これにより、利用者Ｕ１は、スピーカ１２から出力される所望の利用者の発声を確認することができる。

また例えば、録音装置１－１は、図８（Ｂ）に示すように、装置本体３のタッチパネルディスプレイ５５に、文字起こし設定画面１５９を表示することができる。利用者Ｕ１は、文字起こし設定画面１５９において、音声データの音声認識処理に関する入力操作を行うことができる。

図８（Ｂ）では、利用者Ｕ１が、利用者Ｕ１（すなわち、自身）の発声をテキスト変換対象として選択した例が示されている。そこで、利用者が実行ボタン５７を押下すると、音声認識部２７が上述のように管理サーバ１０１から取得された分離音データの音声認識処理を実行する。これにより、利用者Ｕ１の発声がテキスト変換され、所定のフォーマットでテキストファイルが生成される。生成されたテキストファイルは記憶部４２に記憶される。

このように、第２実施形態に係る録音装置１を含む録音システム１００によれば、各利用者の発声を含む骨導音データと、特定の利用者（すなわち、複数の利用者の中から選択された利用者）の発声を含む分離音データとがそれぞれ記憶部１０７に記憶されるため、特定の利用者の発声とそれ以外の利用者の発声とを分離して利用することが可能となる。

（第３実施形態）
第３実施形態では、第２実施形態の場合と同様に、複数の録音装置１が準備され、複数の人物がそれぞれ対応する録音装置１の利用者となる（すなわち、各人物が少なくとも骨導マイク１０を装着する）場合について説明する。

図９は、第３実施形態に係る録音装置１を備えた録音システム１００の構成を示す機能ブロック図である。図９に示した録音装置１および録音システム１００では、上述の第１実施形態に係る録音装置１および第２実施形態に係る録音システム１００と同様の構成要素については、同一の符号が付されている。また、第３実施形態に係る録音装置１および録音システム１００に関し、以下で特に言及しない事項については、上述の第１実施形態に係る録音装置１および第２実施形態に係る録音システム１００と同様である。

第３実施形態に係る録音装置１－１～１－Ｎは、上述の第１実施形態に係る録音装置１（図３参照）と同様の構成を有する。

各録音装置１－１～１－Ｎにおいて、録音処理部２５により生成された骨導音データ４５および分離音データ４６は、それぞれ通信部２９によって管理サーバ１０１に対して送信される。

管理サーバ１０１において、制御部１０６は、音声データ取得部１１１および骨導音データ合成部１１５を有する。

音声データ取得部１１１は、骨導音データ４５および分離音データ４６を、各録音装置１－１～１－Ｎとの通信によってそれぞれ取得する。

骨導音データ合成部１１５は、２以上のマイクセットにおける骨導マイク１０に対応する骨導音データを合成することにより、合成骨導音データを生成する。本実施形態では、そのような２以上のマイクセットは、利用者によって選択され得る。生成された合成骨導音データには、２以上の利用者の音声が合成された合成音声が含まれる。

生成された合成骨導音データや、各録音装置１－１～１－Ｎから取得された骨導音データ４５および分離音データ４６は、記憶部１０７に記憶され、利用者Ｕ１～ＵＮからの要求に応じて録音装置１－１～１－Ｎに送信される。

第３実施形態に係る録音装置１－１では、例えば、上述の図８に示したボイスレコーダ設定画面１５６と同様の設定画面を装置本体３のディスプレイに表示することができる（録音装置１－２～１－Ｎも同様）。利用者Ｕ１は、その設定画面において２以上の利用者（すなわち、再生対象）を選択することができる。ここで、利用者Ｕ１が２以上の再生対象（または合成対象）を選択することは、利用者Ｕ１が２以上のマイクセットを選択したことと同義である。管理サーバ１０１は、録音装置１－１からの２以上の再生対象に関する情報を取得すると、骨導音データ合成部１１５は、利用者Ｕ１によって選択された２以上のマイクセットにおける各骨導マイク１０に対応する骨導音データ（すなわち、選択された２以上の再生対象に関する骨導音データ）を合成することにより、合成骨導音データを生成する。

その後、録音装置１－１は、管理サーバ１０１によって生成された合成骨導音データを取得する。続いて、音声再生部２６が、利用者Ｕ１によって選択された２以上の利用者の発声のみを含む（例えば、他の利用者Ｕ１と利用者Ｕ２との発声が合成された）合成骨導音データの再生処理を実行する。これにより、利用者Ｕ１は、スピーカ１２から出力される２以上の利用者（すなわち、自らが選択した利用者）の発声を確認することができる。

このように、第３実施形態に係る録音装置１を含む録音システム１００によれば、複数の特定の利用者の声を含む合成骨導音データと、複数の利用者の発声を含む気導音データを記憶部１０７に記憶することにより、特定の利用者の発声とその特定の利用者を含む複数の利用者の発声とを分離して利用することが可能となる。

以上のように、本出願において開示する技術の例示として、実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略などを行った実施形態にも適用できる。また、上記の実施形態で説明した各構成要素を組み合わせて、新たな実施形態とすることも可能である。

本開示に係る録音装置は、骨導マイクおよび気導マイクを用いて利用者を含む複数の人物の発声が収音される場合に、利用者の発声とその周囲の人物の発声とを分離して利用することを可能とし、骨導マイクおよび気導マイクを備え、利用者の発声を録音する録音装置、録音システム、及びそれらの録音方法などとして有用である。

１：録音装置
２：イヤホン
３：録音装置本体
４：信号線
５：耳
９：外装筐体
９Ａ：ケース
９Ｂ：カバー
９Ｃ：開口
１０：骨導マイク
１１：気導マイク
１２：スピーカ
１３：内部筐体
１３Ａ：通路
１３Ｂ：筒部
１５：マイクラバー
１６：先端ラバー
１７：樹脂部材
１８：ケーブルキャップ
２１：骨導音伝送路
２２：気導音伝送路
２３：接続路
２５：録音処理部
２６：音声再生部
２７：音声認識部
２９：通信部
３１：増幅部
３３：ＬＰＦ
３５：増幅部
３６：演算部
４０：第１分離処理部
４１：第２分離処理部
４２：記憶部
４５：骨導音データ
４６：分離音データ
５１Ａ－５１Ｃ：第１～第３の医療従事者
５２：患者
５５：タッチパネルディスプレイ
５６：ボイスレコーダ設定画面
５７：実行ボタン
５９：文字起こし設定画面
６１：気導音データ
１００：録音システム
１０１：管理サーバ
１０３：通信ネットワーク
１０５：通信部
１０６：制御部
１０７：記憶部
１１１：音声データ取得部
１１２：気導音データ合成部
１１３：音声データ分離部
１１５：骨導音データ合成部
１５６：ボイスレコーダ設定画面
１５７：実行ボタン
１５９：文字起こし設定画面

Claims

利用者の発声を収音して骨導音信号を生成する骨導マイクと、
前記利用者を含む複数の人物の発声を収音して気導音信号を生成する気導マイクと、
前記気導音信号に基づく前記複数の人物の前記発声から前記骨導音信号に基づく前記利用者の前記発声を分離するための処理を実行することにより、分離音信号を生成する音声分離部と、
前記骨導音信号に基づき生成された前記利用者の前記発声を含む骨導音データ、及び前記分離音信号に基づき生成された前記利用者以外の前記人物の前記発声を含む分離音データをそれぞれ記憶する記憶部と、
を備えた、録音装置。
前記骨導音信号が伝送される骨導音伝送路と、
前記気導音信号が伝送される気導音伝送路と、
を更に備え、
前記音声分離部は、前記気導音伝送路を伝送される前記気導音信号から前記骨導音伝送路を伝送される前記骨導音信号を減算することにより、前記分離音信号を生成する、請求項１に記載の録音装置。
前記骨導音伝送路において、前記分離音信号の生成に用いられる前記骨導音信号から前記利用者の前記発声に基づく音声信号を抽出するローパスフィルタを更に備えた、請求項２に記載の録音装置。
前記骨導音伝送路において、前記分離音信号の生成に用いられる前記骨導音信号におけるノイズ成分を除去または低減するノイズキャンセラを更に備えた、請求項２に記載の録音装置。
前記骨導音データに基づく音声と前記分離音データに基づく音声とを選択的に再生可能な音声再生部を更に備えた、請求項１または請求項２に記載の録音装置。
前記骨導音データに基づく音声と前記分離音データに基づく音声との音声認識処理を選択的に実行することにより、テキスト変換処理を実行可能な音声認識部を更に備えた、請求項１または請求項２に記載の録音装置。
複数の利用者における各利用者によってそれぞれ使用されるマイクセットと、
前記各マイクセットからの音声信号をそれぞれ取得するサーバとを備え、
前記各マイクセットは、
前記各利用者の発声を収音して骨導音信号を生成する骨導マイクと、
前記各利用者を含む複数の人物の発声を収音して気導音信号を生成する気導マイクと、を有し、
前記サーバは、
前記骨導音信号に基づく骨導音データと、前記気導音信号に基づく気導音データとを、前記各マイクセットからそれぞれ取得する音声データ取得部と、
前記音声データ取得部によって取得された複数の前記気導音データを合成することにより、合成気導音データを生成する気導音データ合成部と、
前記合成気導音データに基づく合成音声から、少なくとも１つの前記マイクセットに対応する前記骨導音データに基づく前記利用者の前記発声を分離するための処理を実行することにより分離音データを生成する音声データ分離部と、
前記骨導音データと、前記分離音データとをそれぞれ記憶する記憶部と、
を有する、録音システム。
前記複数の利用者のいずれかにより使用される入力装置を更に備え、
前記サーバは、前記入力装置への入力操作によって選択された少なくとも１つの前記マイクセットの情報を取得し、
前記音声データ分離部は、選択された少なくとも１つの前記マイクセット以外の前記マイクセットに対応する前記骨導音データに基づき、前記分離音データを生成する、請求項７に記載の録音システム。
録音装置の録音方法であって、
前記録音装置は、
利用者の発声を収音して骨導音信号を生成する骨導マイクと、
前記利用者を含む複数の人物の発声を収音して気導音信号を生成する気導マイクと、
を備え、
前記気導音信号に基づく前記複数の人物の前記発声から前記骨導音信号に基づく前記利用者の前記発声を分離するための処理を実行することにより分離音信号を生成し、
前記骨導音信号に基づき前記利用者の前記発声を含む骨導音データを生成し、かつ前記分離音信号に基づき前記利用者以外の前記人物の前記発声を含む分離音データを生成し、
前記骨導音データおよび前記分離音データをそれぞれ記憶する、録音方法。
録音システムの録音方法であって、
前記録音システムは、
複数の利用者における各利用者によってそれぞれ使用されるマイクセットと、
前記各マイクセットからの音声信号をそれぞれ取得するサーバとを備え、
前記各マイクセットは、
前記各利用者の発声を収音して骨導音信号を生成する骨導マイクと、
前記各利用者を含む複数の人物の発声を収音して気導音信号を生成する気導マイクと、を有し、
前記サーバは、
前記骨導音信号に基づく骨導音データと、前記気導音信号に基づく気導音データとを、前記各マイクセットからそれぞれ取得し、
取得された複数の前記気導音データを合成することにより、合成気導音データを生成し、
前記合成気導音データに基づく合成音声から、少なくとも１つの前記マイクセットに対応する前記骨導音データに基づく前記利用者の前記発声を分離するための処理を実行することにより分離音データを生成し、
前記骨導音データと、前記分離音データとをそれぞれ記憶する、録音方法。