JP2005010652A - 音声検出装置 - Google Patents

音声検出装置 Download PDF

Info

Publication number
JP2005010652A
JP2005010652A JP2003176969A JP2003176969A JP2005010652A JP 2005010652 A JP2005010652 A JP 2005010652A JP 2003176969 A JP2003176969 A JP 2003176969A JP 2003176969 A JP2003176969 A JP 2003176969A JP 2005010652 A JP2005010652 A JP 2005010652A
Authority
JP
Japan
Prior art keywords
parameter
vowel
utterance
myoelectric
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003176969A
Other languages
English (en)
Other versions
JP4447857B2 (ja
Inventor
Hiroyuki Manabe
宏幸 真鍋
Akira Hiraiwa
明 平岩
Koki Hayashi
宏樹 林
Takeshi Ninchoji
毅 忍頂寺
Toshiaki Sugimura
利明 杉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2003176969A priority Critical patent/JP4447857B2/ja
Priority to EP04014123A priority patent/EP1489597B1/en
Priority to DE602004011292T priority patent/DE602004011292T2/de
Priority to CNB2004100597682A priority patent/CN1272766C/zh
Priority to US10/869,945 priority patent/US7418385B2/en
Publication of JP2005010652A publication Critical patent/JP2005010652A/ja
Application granted granted Critical
Publication of JP4447857B2 publication Critical patent/JP4447857B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

【課題】学習用データを用いずに音声認識を行うことができる音声検出装置を提供すること。
【解決手段】この音声検出装置10は、発声動作時に発生する筋電信号を複数の部位から取得する筋電信号取得部101と、当該取得された筋電信号の所定値に対する変動値をパラメータとして、部位に対応したチャネルごとに算出するパラメータ算出部102と、当該算出したパラメータの変動に基づいて発声動作時の母音の発声動作タイミングを特定する母音発声認識部103と、当該特定した発声動作タイミングの前後における各チャネルごとのパラメータの変動状態に基づいて、発声動作に対応する母音を特定する母音特定部104と、を備える。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声検出装置に関するものである。
【0002】
【従来の技術】
音声検出装置では、発話における音声を音響信号として取り扱い、その音響信号を周波数分析することによって、音声情報を認識し処理する音声認識技術が採用されてきた。この音声認識技術の一例としてスペクトル包絡等が利用されている。しかし、この音声認識技術を用いて良好な音声検出結果をもたらすためには発話時にある程度の音量が必要であって、発話による音響信号が入力されない限り音声情報を検出することは不可能であった。このことから音声入力時に話者の声が周囲の人々の迷惑となるため、静けさが要求されるオフィスや図書館や各種の公共機関内などでは、このような音声検出装置を使用することは実質的に困難であった。また周囲の雑音の大きい場所では、クロストークの問題が発生し、音声検出機能が低下するという課題もあった。
【0003】
更に近年急速に普及した携帯電話においては、電車内での利用自粛が求められている。これは携帯電話の利用の際におけるペースメーカ等の医療用電子機器への電磁波的影響だけでなく、発話することが騒音となって周囲の人々の迷惑になるというマナー的影響も指摘されている。これらの音響信号を利用する際の課題に対して、音響信号以外から音声情報を獲得する研究も従来から行われていた。音響情報以外の情報から音声情報を獲得することができれば、音声を発することなく発話することが可能となるためである。
【0004】
この研究の一例として、口唇の視覚情報による音声認識手法が提案されている(下記特許文献1及び特許文献2参照。)。特許文献1及び特許文献2に記載の音声認識手法は、ビデオカメラ等により撮像された画像を用いた画像処理によって口唇の動きを特定している。
【0005】
この研究の別の一例として、口の周囲の筋肉の動きに伴って発生する筋電信号を処理し、発声した母音の種類を認識する音声認識手法が提案されている(下記非特許文献1参照。)。非特許文献1に記載の音声認識手法は、筋電信号をバンドパスフィルタに通した後、閾値の交差回数をカウントして5母音(a、i、u、e、o)を弁別するものである。
【0006】
この研究の別の一例として、口の周囲の筋肉の筋電信号をニューラルネットワークを用いて処理し、発話者の母音だけでなく子音も含めて検出する音声認識手法が提案されている(下記特許文献3参照。)。
【0007】
この研究の別の一例として、顔面の3箇所の筋電信号の二乗平均平方根を用いて5母音(a、i、u、e、o)を認識する音声認識手法が提案されている(下記非特許文献2参照。)。この認識にはニューラルネットワークが用いられており、高い精度で認識が行えることが示されている。
【0008】
【特許文献1】
特開昭52−112205号公報
【特許文献2】
特開平6−43897号公報
【特許文献3】
特開平7−181888号公報
【非特許文献1】
Noboru Sugie et al.,“A Speech Employing a Speech Synthesizer Vowel Discrimination from Perioral MusclesActivities and Vowel Production,”IEEE transactions on Biomedical Engineering, Vol.32,No.7
【非特許文献2】
真鍋、平岩、杉村、「筋電信号を用いた無発声音声認識」、インタラクション2002論文集、2002年、p.181−182
【0009】
【発明が解決しようとする課題】
上述のように筋電信号に基づいて音声認識を行う技術では、通常の音声信号を用いた音声認識と同様に認識エンジンを学習するための学習用データが必要となり、認識の精度を上げようとするとその学習用データが膨大なものとなる。
【0010】
そこで本発明では、学習用データを用いずに音声認識を行うことができる音声検出装置を提供することを課題とする。
【0011】
【課題を解決するための手段】
本発明者らは、上述の課題を解決することができる音声検出装置の検討を様々な角度から行った。本発明者らは、母音の識別と子音の識別とを切り分けて処理することに着目した。すなわち、筋電信号を用いた音声認識では周囲の雑音の影響を受けないという利点があるため、通常の音声信号を用いた音声認識の補助手段として筋電信号を用いた音声認識を用いることができる。そこで、本発明においては、母音の識別を可能とすることに着目し、その観点からの音声認識を実現することとした。本発明のこれらの知見に基づいてなされたものである。
【0012】
本発明の音声検出装置は、発声動作時に発生する筋電信号を複数の部位から取得する筋電信号取得手段と、当該取得された筋電信号の所定値に対する変動値をパラメータとして、部位に対応したチャネルごとに算出するパラメータ算出手段と、当該算出したパラメータの変動に基づいて発声動作時の母音の発声動作タイミングを特定する母音発声認識手段と、当該特定した発声動作タイミングの前後における各チャネルごとのパラメータの変動状態に基づいて、発声動作に対応する母音を特定する母音特定手段と、を備える。
【0013】
本発明の音声検出装置によれば、パラメータの変動に基づいて特定される発声動作タイミングの前後のパラメータの変動状態に基づいて、その発声動作に対応する母音を特定するので、例えば、パラメータが増えたか減ったかといった情報に基づいて母音を特定できる。従って、パラメータの変動の傾向が把握できれば母音を特定できるので、母音についての音声認識が可能となる。
【0014】
また本発明の音声検出装置では、発声動作タイミングの前後の母音の組合せと、パラメータの変動状態とが、各チャネルごとに関連付けられて格納されている筋電情報格納手段を更に備え、母音特定手段は、パラメータの変動状態に基づいて、筋電情報格納手段に格納されている母音の組合せを特定し、発声動作に対応する母音を特定することも好ましい。母音特定手段が、筋電情報格納手段に格納されているパラメータの変動状態を参照し、取得したパラメータの変動状態に適合した母音を特定するので、母音についての音声認識が可能となる。
【0015】
また本発明の音声検出装置では、パラメータは、第一の時間窓に対応する第一パラメータと、当該第一の時間窓よりも短い時間に設定されている第二の時間窓に対応する第二パラメータとを含み、母音発声認識手段は、第二パラメータに基づいて発声動作タイミングを特定し、母音特定手段は、第一パラメータに基づいて母音を特定することも好ましい。短い時間に設定されている第二の時間窓に対応する第二パラメータに基づいて発声動作タイミングを特定するので、より的確に発声動作タイミングの特定が可能となる。
【0016】
本発明の音声検出装置は、発声動作時に発生する筋電信号を複数の部位から取得する筋電信号取得手段と、当該検出された筋電信号の所定値に対する変動値をパラメータとして、部位に対応したチャネルごとに算出するパラメータ算出手段と、パラメータが所定時間変動しないかどうかを監視する変動監視手段と、当該監視結果及びパラメータに基づいて、発声動作に対応する母音を特定する母音特定手段と、を備える。
【0017】
本発明の音声検出装置によれば、パラメータが変動したか否かに基づいて、発声動作に対応する母音を特定するので、例えば、パラメータが増えたか減ったかを判断して母音を特定できる。従って、パラメータの変動の傾向を把握して母音を特定できるので、母音についての音声認識が可能となる。
【0018】
また本発明の音声検出装置では、発声動作タイミングの前後の母音の組合せと、パラメータの変動状態とが、各チャネルごとに関連付けられて格納されている筋電情報格納手段を更に備え、母音特定手段は、パラメータが所定時間変動しなかった場合に、その所定時間分のパラメータを採用し、当該採用したパラメータの変動状態に基づいて、筋電情報格納手段に格納されている母音の組合せを特定し、発声動作に対応する母音を特定することも好ましい。母音特定手段が、筋電情報格納手段に格納されているパラメータの変動状態を参照し、取得したパラメータの変動状態に適合した母音を特定するので、母音についての音声認識が可能となる。
【0019】
【発明の実施の形態】
本発明の知見は、例示のみのために示された添付図面を参照して以下の詳細な記述を考慮することによって容易に理解することができる。引き続いて、添付図面を参照しながら本発明の実施の形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
【0020】
本発明の実施形態である音声検出装置10について図1を用いて説明する。図1は音声検出装置10のブロック図である。本実施形態の音声認識装置10は、無声、すなわち、音を出さずに発声動作をする話者の発話内容を認識する音声認識装置である。音声認識装置10は物理的には、筋電信号を取得するための電極や中央処理装置やメモリといった部分を備えて構成される。音声認識装置10は機能的な構成要素として、筋電信号取得部101(筋電信号取得手段)と、パラメータ算出部102(パラメータ算出手段)と、母音発声認識部103(母音発声認識手段)と、母音特定部104(母音特定手段)と、母音情報出力部105と、閾値情報格納部200と、筋電情報格納部201(筋電情報格納手段)と、を備える。引き続いて各構成要素について説明する。
【0021】
筋電信号取得部101は、発声動作時に発生する筋電信号を複数の部位から取得する部分である。筋電信号取得部101はこの取得した筋電信号をパラメータ算出部102に出力する。筋電信号取得部101の構成を図2に示す。図2によれば、筋電信号取得部101は、筋電信号測定用電極101a〜101fと、増幅器101g〜101iとで構成される。図2の例に拠れば、筋電信号測定用電極101a、101bは、大頬骨筋に相当する筋肉から発生する筋電信号を取得し、増幅器101gに出力する。増幅器101gは、その筋電信号を増幅してパラメータ算出部102に出力する。また、筋電信号測定用電極101c、101dは、口輪筋に相当する筋肉から発生する筋電信号を取得して増幅器101hに出力する。増幅器101hは、その筋電信号を増幅してパラメータ算出部102に出力する。また、筋電信号測定用電極101e、101fは、顎二腹筋に相当する筋肉から発声する筋電信号を取得して増幅器101iに出力する。増幅器101iは、その筋電信号を増幅してパラメータ算出部102に出力する。
【0022】
パラメータ算出部102は、筋電信号取得部101が出力する筋電信号の、所定値に対する変動値をパラメータとして各部位に対応したチャネルごとに算出する部分である。つまり、パラメータ算出部102は、筋電信号取得部101の各増幅器101g〜101iから出力される筋電信号それぞれについてパラメータを算出する。図3は、パラメータ算出部102のパラメータ算出方法を説明するための図である。筋電信号取得部101が出力する筋電信号は、図3の上段に示すように時系列の電位の振幅で表すことができる。パラメータ算出部102は、図3の下段に示すように、筋電信号取得部101が出力する筋電信号を、所定時間に設定されている時間窓30〜32(第一の時間窓)で順に切り出す。ここで、これらの時間窓30〜32に設定されている所定時間の長さは同一であり、時間窓30〜32の開示時刻は順にずらして設定されている。時間窓30〜32の開示時刻のずれは任意に設定されるものであるが、例えば、所定時間の半分の時間だけずれるように設定される。
【0023】
また、各時間窓30〜32は、図4に示すように子時間窓(第二の時間窓)を含んで構成される。この子時間窓に設定されている所定時間の長さも任意に設定されるものである。本実施形態では、子時間窓には10〜50msが設定され、時間窓には100ms〜500msが設定されている。時間窓から算出されるパラメータ(第一パラメータ)と子時間窓から算出されるパラメータ(第二パラメータ)の利用態様については後述する。
【0024】
パラメータ算出部102は、各々の時間窓及び子時間窓に対して、パラメータとして、筋電信号の二乗平均平方根(RMS)を計算する。ここで、二乗平均平方根は次の(1)式で定義される。ここで、e(t)は筋電信号の電位である。このパラメータとして算出される二乗平均平方根は筋肉の活動量に関する情報として取り扱うことができる。
【0025】
【数1】
Figure 2005010652
【0026】
尚、筋肉の活動量と関係のあるパラメータとしては、他に(2)式で定義される筋電信号の整流化平均値(ARV)がある。
【0027】
【数2】
Figure 2005010652
【0028】
ただし、(2)式においては、(3)式である。
【0029】
【数3】
Figure 2005010652
【0030】
更に、筋肉の活動量と関係のあるパラメータとしては、他に(4)式で定義される筋電信号の積分平均値(IEMG)がある。
【0031】
【数4】
Figure 2005010652
【0032】
これらの、二乗平均平方根(RMS)、整流化平均値(ARV)、積分平均値(IEMG)のどれをパラメータとして用いてもよく、これらを組み合わせて用いてもよい。また、周波数スペクトルといった他のパラメータを用いてもよい。本実施形態においては、二乗平均平方根を用いることとする。
【0033】
パラメータ算出部102が算出したパラメータの例を図5に示す。図5は、案性状態から「/a/」を発声し、続いて「/i/」を発声した場合の二乗平均平方根の値(RMS値)を時系列に示したものである。尚、データ50は所定時間を50msに設定した子時間窓におけるパラメータ(第二パラメータ)を示し、データ51は所定時間を200msに設定した時間窓におけるパラメータ(第一パラメータ)を示している。尚、図5に示した例では、時間窓の周期を100ms、子時間窓の周期を25msとしているので、パラメータが変化する周期もそれにあわせてそれぞれ100msと25msとなっている。図5に示すデータの処理方法については後述する。パラメータ算出部102は、このように算出したパラメータを母音発声認識部103に出力する。
【0034】
母音発声認識部103は、パラメータ算出部102が出力するパラメータの変動に基づいて発声動作時の母音の発声動作タイミングを特定する部分である。母音発声認識部103の動作について図5に示すデータを例に説明する。図5において、子時間窓のデータ50に着目すると、2.3〜2.4秒の部分と2.6秒付近の部分でRMS値に著しい変化が起きていることがわかる。母音発声認識部103は、この変化のタイミングを母音の発声動作タイミングとして特定し、パラメータ算出部102から受け取ったパラメータと共に母音特定部104に出力する。
【0035】
引き続いて、母音発声認識部103がパラメータの変化を検出する方法について詳細に説明する。図6は、母音発声認識部103がパラメータの変化を検出する方法を示したフローチャートである。母音発声認識部103は、パラメータの時間変化量を算出する(ステップS01)。時刻tにおける時間変化量P’(n)は、算出したパラメータをp(t)と表した場合には(5)式で定義される。
【0036】
【数5】
Figure 2005010652
【0037】
尚、時間変化量P’(n)としては、(6)式で定義されるように、一定時刻前までのパラメータに重みをかけたものの和と、直近のパラメータとの差の絶対値を採用してもよい。
【0038】
【数6】
Figure 2005010652
【0039】
また、時間変化量P’(n)としては、(7)式で定義されるように、一定時刻前までのパラメータに重みをかけたものの和と、直近のパラメータとの差の絶対値をパラメータの値で割った値を採用してもよい。この場合には、パラメータの値がどの程度変化したかを割合で表現している。
【0040】
【数7】
Figure 2005010652
【0041】
時間変化量P’(n)としては、直近に算出されたパラメータが過去に算出されたパラメータからどの程度変化しているのかを特定できればよく、式(5)〜式(7)のように絶対値を用いる代わりに差の値そのものを用いてもよい。
【0042】
母音発声認識部103は、直近に発声された母音成分を特定する(ステップS02)。本実施形態の場合には、直前に発声された母音成分は既に認識済みであって、母音発声認識部103はこの認識済みの母音成分を直近に発声されたものとして特定する。直前に発声された母音成分の認識手法としては、既知の音声認識手法を用いることができる。また、例えば、ユーザに必ず最初に「あ」を発声してもらうこととして、発生された母音成分を認識してもよい。母音発声認識部103は、この特定した母音成分に基づいて、閾値情報格納部200に格納されている情報を参照し、対応する閾値を取得する(ステップS03)。閾値情報格納部200には、図7に示すように「直近母音成分」と「閾値」とが関連付けられて格納されている。「閾値」は各チャネルごとに格納されていて、例えば、「直近母音成分」が「/a/」であれば、「閾値」は「チャネル1」が0.5、「チャネル2」が0.2、「チャネル3」が0.2である。この「閾値」の役割は後述する「変化特性」と同様のものであって、「閾値」は短い時間窓(子時間窓)に対応し、「変化特性」は長い時間窓に対応するものである。
【0043】
母音発声認識部103は、ステップS01で算出したパラメータの時間変化量が、ステップS02で取得した閾値を超えているかどうかを各チャネルごとに判断する(ステップS04)。母音発声認識部103は、各チャネルにおいて時間変化量が閾値を超えていればその時刻を母音が変化したタイミングとして記録する(ステップS05)。時間変化量が閾値を超えていなければステップS01の処理に戻る。尚、時間変化量が閾値を超えていることを判断する場合には、全てのチャネルにおいて時間変化量が閾値を超えていることを条件としても、過半数のチャネルにおいて時間変化量が閾値を超えていることを条件としても、一つのチャネルにおいて時間変化量が閾値を超えていることを条件としてもよい。
【0044】
図1に戻って、母音発生認識部103は、パラメータ算出部102から出力されたパラメータと共に、母音が変化したタイミングを母音特定部104に出力する。母音特定部104は、母音発声認識部103から出力される母音が変化したタイミングの前後における各チャネルごとのパラメータの変動状態に基づいて、発声動作に対応する母音を特定する部分である。母音特定部104が母音を特定する方法について図8を用いて説明する。図8は、母音特定部104が母音を特定する方法を示したフローチャートである。
【0045】
母音特定部104は、母音が変化したタイミングの前後におけるパラメータの変化特性を検出する(ステップS11)。この変化特性とは、母音変化のタイミングの前後でパラメータが、大きく増えたか、増えたか、等しいか、減ったかで区分される。より具体的には、前の状態のレベルから200%以上増加した場合には大きく増えたと判断し、前の状態のレベルから50%以上200%未満増加した場合には増えたと判断し、前の状態のレベルからの変化量が±50%未満の場合には等しいと判断し、前の状態のレベルから50%以上減った場合には減ったと判断する。図5の例で説明すると、既に説明したように母音の変化のタイミングは、2.3〜2.4秒の部分と2.6秒付近の部分である。この部分で、子時間窓よりも長い時間に設定されている時間窓のデータ51を見ると、その増減の状態が把握できる。母音特定部104は各チャネルについてこの変化特性を検出する。
【0046】
母音特定部104は、直近に発声された母音成分を特定する(ステップS12)。母音特定部104は、この特定した母音成分に基づいて、筋電情報格納部201に格納されている情報と、各チャネルの変化特性とを比較して母音成分を認識する(ステップS13)。筋電情報格納部201に格納されている情報の例を、図9(a)〜図9(c)に示す。図9(a)は、口輪筋における直前の母音成分と変化特性の対応を示し、図9(b)は、大頬骨筋における直前の母音成分と変化特性の対応を示し、図9(c)は、顎二腹筋における直前の母音成分と変化特性の対応を示している。例えば、直前の母音成分が「/a/」であって、各チャネルの変化特性が、口輪筋においては「等しい」、大頬骨筋においては「増えている」、顎二腹筋においては「減っている」というものである場合には、図9(a)〜図9(c)に示す情報に基づいて、発声した母音が「/i/」であると認識する。尚、図9(a)〜図9(c)において「等」は「等しい」ことを、「減」は「減っている」ことを、「増」は「増えている」ことを、「大増」は「大きく増えている」ことを、それぞれ示している。
【0047】
母音特定部104は認識した母音を母音情報出力部105に出力する。母音情報出力部105は出力対象に合わせて母音を特定する情報を出力する部分である。この出力対象としては、認識アルゴリズムやスピーカーやディスプレイといったものが挙げられる。
【0048】
上述の実施形態においては、長い時間を設定した時間窓と、短い時間を設定した子時間窓との違いに着目している。すなわち、長い時間を設定した時間窓では長い時間における筋電信号の傾向が把握でき、逆に短い時間を設定した子時間窓では短い時間における筋電信号の傾向が把握できる。従って、子時間窓では発声動作のタイミングを把握するのに適しており、時間窓ではそのタイミングの前後における傾向を把握するのに適している。
【0049】
本実施形態においては、二種類の時間窓を用いたが、一種類の時間窓を用いて母音を認識することも可能である。例えば、上記の短い時間を設定した子時間窓のみを用いる場合には、上記の長い時間を設定した時間窓の部分を、複数の子時間窓の平均値を用いることで代用可能である。
【0050】
更に、音声検出装置10の一部を変更した音声検出装置90を用いることも可能である。音声検出装置90の構成を図10に示し、音声検出装置90の動作を示したフローチャートを図12に示す。音声検出装置90は物理的には、筋電信号を取得するための電極や中央処理装置やメモリといった部分を備えて構成される。音声認識装置90は機能的な構成要素として、筋電信号取得部101(筋電信号取得手段)と、パラメータ算出部102(パラメータ算出手段)と、変動監視部903(変動監視手段)と、母音特定部904(母音特定手段)と、母音情報出力部105と、筋電情報格納部910(筋電情報格納手段)と、を備える。引き続いて各構成要素について説明するが、筋電信号取得部101と、パラメータ算出部102と、母音情報出力部105とは音声検出装置10と同様であるので説明を省略する。
【0051】
変動監視部903は、パラメータ算出部102が出力するパラメータが所定時間変動しないかどうかを監視する部分である。変動監視部903は、パラメータの変化特性を検出する(ステップS21)。この変化特性は、パラメータが変動したかどうかを示すものである。変動監視部903は、パラメータが変動したかどうかを判断する(ステップS22)。変動監視部903は、パラメータの値が直前のパラメータと比較して50〜150%の範囲内に収まっている場合には変動していないと判断し、その範囲を超えた場合には変動したと判断する。パラメータが変動していれば、変動監視部903はカウンタをリセットする(ステップS23)。パラメータが変動しなければ、変動監視部903はカウンタをインクリメントする(ステップS24)。変動監視部903は、カウンタの値が所定の閾値を越えたかどうかを判断する(ステップS25)。このカウンタの値が所定の閾値を越えると、変動監視部903は、パラメータ算出部102が出力するパラメータを母音特定部904に出力する。このステップS24からステップS25においては、変動監視部903が変動を監視する時間窓は非常に短い時間窓に設定されており、本実施形態の場合には20〜50msに設定されている。このように、所定の時間を超えた情報が入らないと母音特定部904にはパラメータが出力されないので、突発的なノイズの混入を防止できる。
【0052】
母音特定部904は、変動監視部903の監視結果とパラメータとに基づいて、発声動作に対応する母音を特定する部分である。母音特定部904は、直近の母音成分を特定する(ステップS26)。本実施形態の場合には、直前に発声された母音成分は既に認識済みであって、母音発声認識部103はこの認識済みの母音成分を直近に発声されたものとして特定する。直前に発声された母音成分の認識手法としては、既知の音声認識手法を用いることができる。また、例えば、ユーザに必ず最初に「あ」を発声してもらうこととして、発生された母音成分を認識してもよい。母音特定部904は、この特定した直近の母音成分と、筋電情報格納部910に格納されている情報とに基づいて母音成分を特定する(ステップS27)。図11(a)〜図11(c)に筋電情報格納部910に格納される情報の例を示す。図11(a)は、口輪筋における直前の母音成分と変化特性の対応を示し、図11(b)は、大頬骨筋における直前の母音成分と変化特性の対応を示し、図11(c)は、顎二腹筋における直前の母音成分と変化特性の対応を示している。例えば、直前の母音成分が「/a/」であって、各チャネルの変化特性が、口輪筋においては「等しい」、大頬骨筋においては「増えている」、顎二腹筋においては「減っている」というものである場合には、図11(a)〜図11(c)に示す情報に基づいて、発声した母音が「/i/」であると認識する。図9(a)〜図9(c)で説明した内容と異なっている部分は、直前の母音成分と認識結果が同じ場合を許容するために、該当部分を「等しい」としたことである。尚、「大きく増えている」とは前の状態のレベルから200%以上増加した場合であり、「増えている」とは前の状態のレベルから50%以上200%未満増加した場合であり、「等しい」とは前の状態のレベルからの変化量が±50%未満の場合であり、「減っている」とは前の状態のレベルから50%以上減った場合であるものとしている。
【0053】
【発明の効果】
本発明によれば、パラメータの変動に基づいて特定される発声動作タイミングの前後のパラメータの変動状態に基づいて、その発声動作に対応する母音を特定するので、例えば、パラメータが増えたか減ったかといった情報に基づいて母音を特定できる。従って、パラメータの変動の傾向が把握できれば母音を特定できるので、母音についての音声認識が可能となる。従って本発明の目的とする、学習用データを用いずに音声認識を行うことができる音声検出装置を提供することができた。
【図面の簡単な説明】
【図1】本発明の実施形態である音声検出装置の構成を示す図である。
【図2】図1の筋電信号取得部の構成を示す図である。
【図3】図1のパラメータ算出部の動作を説明するための図である。
【図4】図1のパラメータ算出部の動作を説明するための図である。
【図5】図1のパラメータ算出部が算出したパラメータの一例を説明するための図である。
【図6】図1の母音発生認識部の動作を説明するための図である。
【図7】図1の閾値情報格納部に格納されている情報の一例を示す図である。
【図8】図1の母音特定部の動作を説明するための図である。
【図9】図1の筋電情報格納部に格納されている情報の一例を示す図である。
【図10】本発明の実施形態である音声検出装置の変形例の構成を示す図である。
【図11】図10の筋電情報格納部に格納されている情報の一例を示す図である。
【図12】図10の音声検出装置の動作を説明するための図である。
【符号の説明】
10…音声検出装置、101…筋電信号取得部、102…パラメータ算出部、103…母音発生認識部、104…母音特定部、105…母音情報出力部、200…閾値情報格納部、201…筋電情報格納部。

Claims (5)

  1. 発声動作時に発生する筋電信号を複数の部位から取得する筋電信号取得手段と、
    当該取得された筋電信号の所定値に対する変動値をパラメータとして、前記部位に対応したチャネルごとに算出するパラメータ算出手段と、
    当該算出したパラメータの変動に基づいて前記発声動作時の母音の発声動作タイミングを特定する母音発声認識手段と、
    当該特定した発声動作タイミングの前後における前記各チャネルごとのパラメータの変動状態に基づいて、前記発声動作に対応する母音を特定する母音特定手段と、
    を備える音声検出装置。
  2. 発声動作タイミングの前後の母音の組合せと、前記パラメータの変動状態とが、前記各チャネルごとに関連付けられて格納されている筋電情報格納手段を更に備え、
    前記母音特定手段は、前記パラメータの変動状態に基づいて、前記筋電情報格納手段に格納されている母音の組合せを特定し、前記発声動作に対応する母音を特定する、請求項1に記載の音声検出装置。
  3. 前記パラメータは、第一の時間窓に対応する第一パラメータと、当該第一の時間窓よりも短い時間に設定されている第二の時間窓に対応する第二パラメータとを含み、
    前記母音発声認識手段は、前記第二パラメータに基づいて発声動作タイミングを特定し、
    前記母音特定手段は、前記第一パラメータに基づいて前記母音を特定する、請求項1又は2に記載の音声認識装置。
  4. 発声動作時に発生する筋電信号を複数の部位から取得する筋電信号取得手段と、
    当該検出された筋電信号の所定値に対する変動値をパラメータとして、前記部位に対応したチャネルごとに算出するパラメータ算出手段と、
    前記パラメータが所定時間変動しないかどうかを監視する変動監視手段と、
    当該監視結果及び前記パラメータに基づいて、前記発声動作に対応する母音を特定する母音特定手段と、
    を備える音声検出装置。
  5. 発声動作タイミングの前後の母音の組合せと、前記パラメータの変動状態とが、前記各チャネルごとに関連付けられて格納されている筋電情報格納手段を更に備え、
    前記母音特定手段は、前記パラメータが所定時間変動しなかった場合に、その所定時間分のパラメータを採用し、当該採用したパラメータの変動状態に基づいて、前記筋電情報格納手段に格納されている母音の組合せを特定し、前記発声動作に対応する母音を特定する、請求項4に記載の音声検出装置。
JP2003176969A 2003-06-20 2003-06-20 音声検出装置 Expired - Fee Related JP4447857B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2003176969A JP4447857B2 (ja) 2003-06-20 2003-06-20 音声検出装置
EP04014123A EP1489597B1 (en) 2003-06-20 2004-06-16 Vowel recognition device
DE602004011292T DE602004011292T2 (de) 2003-06-20 2004-06-16 Vorrichtung zur Sprachdetektion
CNB2004100597682A CN1272766C (zh) 2003-06-20 2004-06-18 语音探测设备
US10/869,945 US7418385B2 (en) 2003-06-20 2004-06-18 Voice detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003176969A JP4447857B2 (ja) 2003-06-20 2003-06-20 音声検出装置

Publications (2)

Publication Number Publication Date
JP2005010652A true JP2005010652A (ja) 2005-01-13
JP4447857B2 JP4447857B2 (ja) 2010-04-07

Family

ID=33411018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003176969A Expired - Fee Related JP4447857B2 (ja) 2003-06-20 2003-06-20 音声検出装置

Country Status (5)

Country Link
US (1) US7418385B2 (ja)
EP (1) EP1489597B1 (ja)
JP (1) JP4447857B2 (ja)
CN (1) CN1272766C (ja)
DE (1) DE602004011292T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006267664A (ja) * 2005-03-24 2006-10-05 Ntt Docomo Inc 音声認識方法および音声認識装置
JP2008233438A (ja) * 2007-03-20 2008-10-02 National Institute Of Advanced Industrial & Technology 筋電位信号による音声認識装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7769593B2 (en) * 2006-09-28 2010-08-03 Sri International Method and apparatus for active noise cancellation
US9564128B2 (en) 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
US11183219B2 (en) * 2019-05-01 2021-11-23 Sony Interactive Entertainment Inc. Movies with user defined alternate endings
WO2020243299A1 (en) * 2019-05-29 2020-12-03 Cornell University Devices, systems, and methods for personal speech recognition and replacement
CN114200879A (zh) * 2021-12-08 2022-03-18 长江存储科技有限责任公司 气体泄露监测方法及装置、计算机存储介质
CN114298111B (zh) * 2021-12-30 2025-09-26 深圳数联天下智能科技有限公司 一种咳嗽音识别方法、设备及可读存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS52112205A (en) 1976-03-17 1977-09-20 Kuniaki Miyazawa Method of identifying audio or language
US4343969A (en) * 1978-10-02 1982-08-10 Trans-Data Associates Apparatus and method for articulatory speech recognition
JPS572099A (en) * 1980-06-05 1982-01-07 Tokyo Shibaura Electric Co Voice recognizing device
JPS62232691A (ja) * 1986-04-03 1987-10-13 株式会社リコー 音声認識装置
US4937870A (en) * 1988-11-14 1990-06-26 American Telephone And Telegraph Company Speech recognition arrangement
US5586215A (en) 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
JP3333022B2 (ja) * 1993-11-26 2002-10-07 富士通株式会社 歌声合成装置
JP3455921B2 (ja) 1993-12-24 2003-10-14 日本電信電話株式会社 発声代行装置
US5794203A (en) * 1994-03-22 1998-08-11 Kehoe; Thomas David Biofeedback system for speech disorders
JPH08335091A (ja) * 1995-06-09 1996-12-17 Sony Corp 音声認識装置、および音声合成装置、並びに音声認識合成装置
JP3006677B2 (ja) * 1996-10-28 2000-02-07 日本電気株式会社 音声認識装置
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6795807B1 (en) * 1999-08-17 2004-09-21 David R. Baraff Method and means for creating prosody in speech regeneration for laryngectomees
JP2001265375A (ja) * 2000-03-17 2001-09-28 Oki Electric Ind Co Ltd 規則音声合成装置
JP3908965B2 (ja) * 2002-02-28 2007-04-25 株式会社エヌ・ティ・ティ・ドコモ 音声認識装置及び音声認識方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006267664A (ja) * 2005-03-24 2006-10-05 Ntt Docomo Inc 音声認識方法および音声認識装置
JP2008233438A (ja) * 2007-03-20 2008-10-02 National Institute Of Advanced Industrial & Technology 筋電位信号による音声認識装置

Also Published As

Publication number Publication date
EP1489597A2 (en) 2004-12-22
JP4447857B2 (ja) 2010-04-07
US7418385B2 (en) 2008-08-26
CN1272766C (zh) 2006-08-30
US20050027529A1 (en) 2005-02-03
DE602004011292T2 (de) 2009-03-05
EP1489597A3 (en) 2006-06-07
EP1489597A8 (en) 2005-04-06
EP1489597B1 (en) 2008-01-16
CN1573927A (zh) 2005-02-02
DE602004011292D1 (de) 2008-03-06

Similar Documents

Publication Publication Date Title
EP3998557B1 (en) Audio signal processing method and related apparatus
JP7092777B2 (ja) 背景雑音環境における咳嗽検出のための方法および装置
CN102388416B (zh) 信号处理装置及信号处理方法
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
US7457753B2 (en) Telephone pathology assessment
CN105989836B (zh) 一种语音采集方法、装置及终端设备
US20150301796A1 (en) Speaker verification
US20160314781A1 (en) Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech
EP1517298A1 (en) Speaking period detection based on electromyography
US20250037730A1 (en) Speech enhancement method and apparatus
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
JP2004199053A (ja) 絶対音量を使用して音声信号を処理する方法
JP4447857B2 (ja) 音声検出装置
CN120673773A (zh) 基于噪声感知的语音增强方法、装置、设备及介质
Alonso-Martin et al. Multidomain voice activity detection during human-robot interaction
CN111653281A (zh) 用于对助听器的音频信号进行个性化信号处理的方法
Bach et al. Robust speech detection in real acoustic backgrounds with perceptually motivated features
JP2004279768A (ja) 気導音推定装置及び気導音推定方法
LU507134B1 (en) Intelligent voice recognition method and system for ar helmets
JP4449380B2 (ja) 話者正規化方法及びそれを用いた音声認識装置
JP2017068153A (ja) 半導体装置、システム、電子機器、及び、音声認識方法
JP2000099099A (ja) データ再生装置
Kyriakides et al. Isolated word endpoint detection using time-frequency variance kernels
CN111508503B (zh) 一种识别同一说话人的方法和装置
KR100381372B1 (ko) 음성특징 추출장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060410

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100119

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130129

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4447857

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130129

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140129

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees