JP5120826B2

JP5120826B2 - 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム

Info

Publication number: JP5120826B2
Application number: JP2006147171A
Authority: JP
Inventors: 真知奥村; 宏明児島; 浩大村
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2005-09-29
Filing date: 2006-05-26
Publication date: 2013-01-16
Anticipated expiration: 2026-05-26
Also published as: EP1947643A4; JP2007122004A; US20090305203A1; KR20080059180A; EP1947643A1; TW200721109A; WO2007037356A1

Description

本発明は、発音診断装置、発音診断方法、記録媒体及び、発音診断プログラムに関するものである。

話者の発音を診断するための発音診断装置として、話者の発した単語に関する音声信号を取得して、当該音声信号に最も近いスペルの単語をデータベースから抽出し、抽出した単語を話者に提示する装置が知られている（例えば、特許文献１を参照）。
特開平１１−２０２８８９号公報

しかしながら、上記の発音診断装置では、話者の発した単語の音声を登録されているスペルの単語に対応付けることによって、発音を診断するものであるので、単語を構成する音素ごとに、正しい調音器官の状態や調音の様式で発音が行われているか否かを診断することができない。

そこで、本発明は、正しい調音器官の状態や調音の様式で発音が行われているか否かを診断可能な発音診断装置、発音診断方法、及び、発音診断プログラム及びこれらに使用する調音的属性データを記憶している記憶媒体を提供することを目的としている。

本発明の一側面に係る発音診断装置は、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動き、のいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせに関する望ましい発音に対応する調音的属性値を有する調音的属性データと、
話者が発した音声信号からの音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せを抽出する手段と、抽出された音響的特徴に基づいて、前記調音的属性に関する属性値を推定する属性値推定手段と、推定された属性値を前記望ましい調音的属性データと比較することにより、発声者の発音に関する判定を行う手段とを備える。

上記発音診断装置において、更に発声者の発音診断結果を出力する手段を備えていることが好ましい。

本発明の別の一側面に係る発音診断装置は、発音の音素を音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せで抽出する音響的特徴抽出手段と、抽出された音素の音響的特徴に従って、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動き、のいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、調音器官状態の力の入れ方、および呼気の状態の組み合わせにより分布を形成するための調音的属性分布形成手段と、調音的属性分布形成手段で区分された調音的属性を閾値でもって判定する調音的属性判定手段とを備える。

本発明の更に別の一側面に係る発音診断装置は、発音の類似する音素を音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せで抽出する音響的特徴抽出手段と、抽出された類似の一方の音素の音響的特徴に従って、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせにより分布を形成するための第１調音的属性分布形成手段と、抽出された類似の他方の音素の音響的特徴に従って発音者の調音的属性を舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、調音器官状態の力の入れ方、および呼気の状態の組み合わせで分布を形成するための第２調音的属性分布形成手段と、第１調音的属性分布形成手段で区分された調音的属性を第１閾値でもって判定する第１調音的属性判定手段と、第２調音的属性分布形成手段で区分された調音的属性を第２閾値でもって判定する第２調音的属性判定手段とを備えている。

上記発音診断装置において、調音的属性判定手段の使用する閾値を可変する閾値可変手段を設けておくことが好ましい。

上記発音診断装置で診断する音素を子音とすることが好ましい。

本発明の更に別の一側面に係る発音診断方法は、話者が発した音声信号からの音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せを抽出する工程と、抽出された音響的特徴に基づいて、調音的属性に関する属性値を推定する属性値推定工程と、推定された属性値を音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせに関する望ましい発音に対応する調音的属性値を有する調音的属性データと比較して発声者の発音に関する判定を行う工程と、発声者の発音診断結果を出力する工程とを備えている。

本発明の更に別の一側面に係る発音診断方法は、発音の音素を音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せで抽出する音響的特徴抽出工程と、抽出された音素の音響的特徴に従って、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含む組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせで分布を形成するための調音的属性分布形成工程と、調音的属性分布形成手段で区分された調音的属性を閾値でもって判定する調音的属性判定工程とを備えている。

本発明の更に別の一側面に係る発音診断方法は、発音の類似する音素を音響的特徴としての周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せで抽出する音響的特徴抽出工程と、抽出された類似の一方の音素の音響的特徴に従って、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性としての舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動き、のいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせで分布を形成するための第１調音的属性分布形成工程と、抽出された類似の他方の音素の音響的特徴に従って発音者の調音的属性を舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動きのいずれか一つ又はこれらの調音器官状態の少なくとも一つを含むそれらの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせで分布を形成するための第２調音的属性分布形成工程と、第１調音的属性分布形成手段で区分された調音的属性を第１閾値でもって判定する第１調音的属性判定工程と、前記第２調音的属性分布形成手段で区分された調音的属性を第２閾値でもって判定する第２調音的属性判定工程とを備えている。

上記発音診断方法において、調音的属性判定工程中で使用する閾値を可変にする閾値可変工程を更に備えておくことが好ましい。

本発明の更に別の一側面に係る記録媒体は、音声言語体系毎に、それを構成する音素毎に調音的属性を有する調音的属性データベースと、調音的属性値を推定するための閾値を有する閾値データベースと、単語区分組成データベースと、特徴軸データベースと、矯正コンテンツデータベースのうち少なくとも１つを記憶している。

本発明によれば、調音器官の状態や調音の様式の状態、即ち調音的属性の状態が推定される。したがって、本発明によれば、正しい調音器官の状態や調音の様式で発音が行われているか否かを、診断することが可能である。

かかる構成によれば、正しい調音器官の状態や調音の様式で発音するための手法を話者に提示することが可能になる。

以上説明したように、本発明によれば、正しい調音器官の状態や調音の様式で発音が行われているか否かを診断可能な発音診断装置、発音診断方法、及び発音診断プログラム、更にこれらの発音診断において使用される種々の情報を記憶している記憶媒体が提供される。
従って本発明は、話者の発した単語の音声を登録されているスペルの単語に対応付けることによって、発音を診断するものであるので、単語を構成する音素ごとに、正しい調音器官の状態や調音の様式で発音が行われているか否かを診断することができる。よって、本発明により話者に正しい調音器官の状態や様式で発音するように指導することができる。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。図１は、本発明の実施の形態に係る発音診断装置として動作するコンピュータの構成を示す図である。発音診断装置１０は、後述する発音診断プログラムによって動作する汎用のコンピュータである。

発音診断装置１０として動作するコンピュータは、図１に示すように、中央処理装置（ＣＰＵ）１２ａ、メモリ１２ｂ、ハードディスクドライブ（ＨＤＤ）１２ｃ、モニタ１２ｄ、キーボード１２ｅ、マウス１２ｆ、プリンタ１２ｇ、音声入出力インターフェイス１２ｈ、マイク１２ｉ、及びスピーカ１２ｊを備えている。

ＣＰＵ１２ａ、メモリ１２ｂ、ハードディスクドライブ１２ｃ、モニタ１２ｄ、キーボード１２ｅ、マウス１２ｆ、プリンタ１２ｇ、及び音声入出力インターフェイス１２ｈは、システムバス１２ｋを介して互いに接続されており、マイク１２ｉ、及びスピーカ１２ｊは、音声入出力インターフェイス１２ｈを介してシステムバス１２ｋに接続されている。

以下、コンピュータを発音診断装置１０として動作させるための発音診断システムについて説明する。図２は、発音診断システムの構成を示す図である。図２に示す発音診断システム２０は、インターフェイス制御部２２、音声信号分析部２４、調音的属性推定部２６、調音的属性データベース（ＤＢ）２８、単語区分組成データベース（ＤＢ）３０、閾値データベース（ＤＢ）３２、特徴軸データベース（ＤＢ）３４、矯正コンテンツ生成部３６、発音判定部３８、矯正コンテンツデータベース（ＤＢ）４０を備えている。

以下、発音診断装置１０による発音診断の処理の流れを、図３を参照しつつ、概略的に説明する。この発音診断では、発音診断を行うべき単語が確定される。この単語の確定では、まずモニタ１２ｄ上に単語のリストが表示される（ステップＳ１１）。表示された単語のリストからユーザが発音診断を行う単語を選択する（ステップＳ１２）。またこのステップでは、ユーザが単語を直接入力することによって発音診断を行う単語を選択してもよく、自動的に、ランダムに或いは定まった順番に提示された単語を、発音診断を行う単語として選択してもよい。

次に、確定された単語がモニタ１２ｄに表示され（ステップＳ１３）、当該単語をユーザがマイク１２ｉに向かって発声する（ステップＳ１４）。このときの音声は、マイク１２ｉで集音されアナログ音声信号として音声入出力インターフェイス１２ｈでデジタルデータに変換される。以下、このデジタルデータを、「音声信号」、或いはアナログ信号の波形をデジタルデータ化したものであるという意味で、「音声波形データ」という。

次に、この音声信号は、音声信号分析部２４に入力される。音声信号分析部２４は、調音的属性ＤＢ２８及び単語区分組成ＤＢ３０及び特徴軸ＤＢ３４を用いて、音声信号から、発音された単語に含まれる音素毎に音響的特徴を抽出し、評価カテゴリ情報とともに調音的属性推定部２６に出力する（ステップＳ１５）。この「音響的特徴」とは、人の声も含む音響データから測定できる、強さ、大きさ、周波数やピッチ、ホルマント、またはこれらの変化率等であり、更に詳細には、音響データの周波数的特徴量、音量、持続時間、それらの変化量、またはそれらの変化パターンおよびそれらの少なくとも一つ以上の組合せをさす。

また、モニタ１２ｄに提示された上述の単語は、調音的属性ＤＢ２８と単語区分組成ＤＢ３０及び特徴軸ＤＢ３４の検索に用いられる。なお、後述するように本明細書においては、「単語情報」という表記があるが、単語の品詞や地域（米語/英語の違いなど）を含むものが「単語情報」と表記し、単語（のスペル）のみの場合を単に「単語」と表記する。

次に、音声信号分析部２４により抽出された音響的特徴及び評価カテゴリ情報から調音的属性推定部２６によって、音素毎に調音的属性の推定が行われ、この結果、調音的属性値が出力される（ステップＳ１６）。なお、「調音的属性」とは、音声学的に認識されている発音時の調音器官の状態や調音の様式である。具体的には、舌の高さ、舌の位置、舌の形状、舌の動き、唇の形状、唇の開き方、唇の動き、声門の状態、声帯の状態、口蓋垂の状態、鼻腔の状態、上下の歯の位置、顎の状態、顎の動き、のいずれか一つ又はこれらの調音器官状態の少なくとも一つの組合せ、前記調音器官状態の力の入れ方、および呼気の状態の組み合わせのことを言う。また「調音的属性値」は、調音的属性の状態を数値化した値である。例えば、舌が口蓋に付いている状態を1、付いていない状態を0とする。あるいは、舌と硬口蓋から上顎歯の先端までの部分での狭窄部分の位置を、0〜1の値で表す（硬口蓋の部分の場合を0、上顎歯の先端部分の場合を1とし、中間部分を、0.25、0.5、0.75、のように５段階の値とする）。

次に、調音的属性値に従って、発音判定が行われ、判定結果が出力され（ステップＳ１７）、インターフェイス制御部２２を通じてモニタ１２ｄに表示される（ステップＳ１８）。さらに、矯正コンテンツ生成部３６により矯正コンテンツＤＢ４０が参照され、判定結果に応じた矯正コンテンツ（文字、静止画、動画など）が出力され（ステップＳ１９）、インターフェイス制御部２２を通じてモニタ１２ｄに表示される（ステップＳ２０）。

以下、発音診断システム２０の各構成要素について詳細に説明する。まず、発音診断システム２０におけるデータベースを作成するための手順を説明する。図４は、発音診断システム２０のデータベースの作成手順を示す図である。

図４に示すように、この作成手順では、まず、診断したい音素を選択し、音声サンプルを収集するためにその音素を含む語句を選択する（ステップＳ０１）。なお、辞書に一般的に用いられている所謂発音記号では同一の音素であっても、単語の中の位置により厳密には異なる音となることが知られている。例えば英語の子音の1つである音素「l」は、語頭、語中、語尾、さらに二つ以上の子音が連続している場合(クラスタと呼ばれる)に、音としての性質が変わるものがある。即ち、音素によっては、その音素の位置や直前の音素の種類により音が変化する。したがって、同じ発音記号の音素であっても、音素の位置や直前の音素の種類により固有の音素として取り扱う必要がある。このような観点から、特定音素とそれを含む語句の集合体を作成し、これを単語データベース（ＤＢ）とする。また、これを元に後述する単語区分組成ＤＢ３０が作成される。

次いで、特定した語句の発音を記録した音声サンプル(文中、単にサンプルとも呼ぶ)を収集する（ステップＳ０２）、音声サンプルは、同一の語句を複数の話者に発音させ、例えば音声ファイルとしてのデータ形式に準拠するよう、強さの上限・下限を超過しないこと、発音の開始前と終了後に一定の無発音区間を設けることなど、同一の規格で録音を行う。このようにして収集し、話者や語句によって体系立てて整備したサンプル群を音声サンプルデータベース（ＤＢ）とする。

次いで、調音的属性の様々な種類をエントリーとしたカテゴリを策定する（ステップＳ０３）。このステップＳ０３では。サンプルＤＢに収録された個々のサンプルを音声学者が聴き、音声学的観点での正しい発音以外に、どのような発音がなされているかを調査する。この際に調音器官の状態や調音の様式の属性を検知し、記録する。即ち、任意の音素に対し、その音素を条件付ける調音器官の状態や調音の様式、つまり調音的属性の様々な種類をエントリーとしたカテゴリを定義する。例えば、「唇の形状」というカテゴリに対して「丸めている」「丸めていない」などの状態が記述される。
図６に、カテゴリの例を示す。

例えば、日本人にとって「lay」と「ray」はともに「レイ」という音で発音される場合が多い。音声学的な捉え方では、例えば音素「l」の音は、側音と言われているように、歯の付け根よりも内側の部分に舌の先端を押し当て、いったん舌の両側から有声音である空気を流した後に、舌先を口蓋から離すことによって発声する音である。

日本人がこの音素「l」の音を発声すると、音声学的に定義されている舌の位置よりも２〜３ミリ後方に接し、しかも側音ではなく、はじき音といわれる音となる。それは、日本語の「ラ行」の音を発音するときの場所と発音する方法が、英語を発音する際にも誤って用いられるからである。

このように、ひとつの音素に対して、一個以上の調音器官の状態や調音の様式、即ち、調音的属性（カテゴリ）が特定されている。音素「l」の場合には、それが、側音であること、場所が歯の付け根の直後であること、有声音であることなどが音素「l」の正しい調音的属性となる。

また、多数の話者による発音を調査することで、各音素に関して、正しい調音器官の状態や調音の様式に属さない調音的属性、または、まったく別の音素の調音的属性に分類される調音的属性といったように、不正解の調音的属性も特定することができる。例えば、音素「l」の場合に、「側音」で無い、「側音でなくかつはじき音」、「舌の位置が後ろ過ぎる」、「子音として短すぎる・長すぎる」などの各調音的属性を特定することができる。

かかるステップＳ０３では、定義したカテゴリの集合体をカテゴリデータベース（ＤＢ）とする。この結果から、調音的属性ＤＢ２８が作成される。また、このとき、図７に示すように、単語とその単語を構成するセグメントに音素を特定する情報（図中、「Ｍ５２」等）が対応付けられて単語区分組成ＤＢ３０のレコードの一部とされる。また、図８に示すように、音素を特定する情報と、その音素に対応の評価カテゴリごとの属性が対応付けられて、調音的属性ＤＢ２８のレコードの一部とされる。また、図１０に示すように、音素を特定する情報と、評価カテゴリに対応して、望ましい属性値から逸脱すると判定された場合の発音の矯正方法に関するコンテンツとが対応付けられて矯正コンテンツＤＢ３６のレコードとされる。

次いで、収集した音声サンプルを、ステップＳ０３で定義したカテゴリを元に評価し、音声学的に該当するカテゴリに分類し、記録する（ステップＳ０４）。ステップＳ０４では、音声サンプルＤＢの個々の音声サンプルに対してカテゴリへの分類、記録をした集合体を発音評価データベース（ＤＢ）とする。

次いで、ステップＳ０４の音声評価を経たサンプル群を対象に、同じ調音的属性に属する音声サンプルが、音響データの特徴としてどのような共通性を持つかを調査する（ステップＳ０５）。

具体的に、このステップＳ０５では、個々の音声サンプルに含まれる音声波形データを、音響的特徴の時系列に変換し、当該音響的特徴の時系列を音素ごとの区間に分割する。例えば、単語が「berry」の場合には、音素「r」が音声波形データの時間軸上のどの区間で発音されているかを特定する。

さらに、ステップＳ０５では、特定した区間の音響的特徴(ホルマントやパワー)と各特徴の値、値の変化率や区間内での平均など、値から算出可能なデータ（音響的特徴量）の１つ以上を組み合わせ、対象の区間の音素として正しい調音的属性の組み合わせもつ音声サンプル群と、その音素としての条件を満たさない、一項目以上の調音的属性をもつ音声サンプル群との間で、どの音響的特徴と音響的特徴量が各々のサンプル群の中で共通性を持ち、かつ、双方のサンプル群を区分できる傾向をもつかを調査する。そして、音響的特徴から調音的属性と関連する特徴軸を選択する。この結果をもとに、特徴軸ＤＢ３４が生成される。

次いで、ステップＳ０５により得られた音響的特徴を精査し、調音的属性との関連性を検証する（ステップＳ０６）。即ち、この検証においては、音響的特徴における音響的特徴量に基づく調音的属性の判定と、音声学者の判定とを比較する。比較の結果、両者が一致しない場合には、ステップＳ０５のプロセスを実施し別の音響的特徴を作成する。以上の結果をもとに音素に対応する評価カテゴリ毎に音響的特徴を特定する特徴軸ＤＢ３４が生成される。図９に、特徴軸ＤＢのレコードの一例を示す。なお上記では、ステップＳ０６においては音声学者の判定により比較を行ったが、簡単な音声評価モデルを作成しておき、自動的に判定を行うこともできる。

次いで、ステップＳ０６のプロセスで特定音素の判定に有効であることが確認された音響的特徴に対して閾値を確定する（ステップＳ０７）。尚、この閾値は、常に一定ではなく、可変とすることも可能である。その場合には、閾値ＤＢ３２の登録を変更したり、外部からの入力により閾値を変えることにより、判定器の判定基準を変更できる。即ち、ステップＳ０７では、音素それぞれについて調音的属性への属否の境界となる特徴量の閾値を確定する。このように確定された閾値の集合体を、閾値ＤＢ３２とする。即ち、閾値ＤＢ３２には、複数の音素それぞれに関する調音的属性への属否を判定するための特徴量の閾値が登録されている。

上記図４における特徴軸選択（ステップＳ０５）の処理について、より詳細に説明する。図１１には、音声サンプルの調音的属性への属否を判定するため、音素の音響的特徴にもとづいて調音的属性の分布を形成する例が示されている。すなわち、持続時間に関する特徴量Ｆ１及び音声パワーに関する特徴量Ｆ２の分布において、単語「belly」における音素「l」が舌先のはじきを伴う発音（日本語的発音）のため不正解となる場合の調音的属性判定ができる。

また、図４における閾値確定（ステップＳ０７）の例として、図１１では特徴量の分布において一次式で２分割することにより閾値を確定する例が示されているが、さらには、閾値として統計モデルを用いた一般的な判定器における一般的な判定パラメータをもちいることもできる。なお、調音的属性の種類により、その調音的属性への属否が、閾値によって明確に２分割できる場合と、属否を明確に分けずに中間的な判定を行う場合がある。

また図１２は、持続時間に関する特徴量Ｆ３及び音声パワーに関する特徴量Ｆ４の分布によって、舌と硬口蓋から上顎歯の先端までの部分での狭窄部分の位置の違いの調音的属性判定を行う例を示している。この結果、音素「th」と、音素「s」または音素「sh」との違いを判別できる。図１３は、音素「s」と音素「th」との発声時の調音器官の状態を示し、図１３（a）は、音素「s」の場合を示し、図１３（b）は、音素「th」の場合を示している。さらに、図１４は、周波数に関する特徴量Ｆ５及び周波数に関する特徴量Ｆ６の分布によって、舌の先端と口蓋によって作られる狭窄位置の場所の違いの調音的属性判定を行う例を示している。この結果、音素「s」と音素「sh」との違いを判別できる。図１５は、音素「s」と音素「sh」との発声時の調音器官の状態を示し、図１５（a）は、音素「s」の場合を示し、図１５（b）は、音素「sh」の場合を示している。

このように、互いに類似する音素「s」「sh」「th」間の調音的属性を判別するために、入力された音素の一方の音響的特徴にしたがって、第1の調音的属性分布形成を行い、また、これとは別の類似する音素の音響的特徴にしたがって、第2の調音的属性分布を形成し、それぞれ作成した調音的属性分布において、それぞれに対応する閾値を用いて、所望の調音的属性への属否を判定することができる。このように、以上の方法によれば子音の発音を判定することができる。

図５は、発音診断システム２０における閾値ＤＢ３２と特徴軸ＤＢ３４を作成するシステム（データベース作成システム５０）のブロック構成図を示すものである。音声サンプルＤＢ５４および音声評価ＤＢ５６は、前記図４に示すデータベース作成手順に従って作成される。また特徴軸選択部５２１を有する調音的属性分布形成部５２の処理手順についても、前記図４に述べた手順で処理が行われ、この結果閾値ＤＢ３２と特徴軸ＤＢ３４が作成される。このデータベース作成システム５０は、発音診断システム２０とは独立に動作させてデータベースを作成することもできるし（オフライン処理）、また発音診断システム２０に組み込んで、閾値ＤＢ３２や特徴軸ＤＢ３４を常時更新する構成とすることもできる（オンライン処理）。

以上のように、音声言語体系毎に、それを構成する音素毎に調音的属性を有する調音的属性ＤＢ２８と、調音的属性値を推定するための閾値を有する閾値ＤＢ３２と、単語区分組成ＤＢ３０と、特徴軸ＤＢ３４と、矯正コンテンツＤＢ４０のうち少なくとも１つを、ハードディスク、ＣＤ−ＲＯＭ等の記録媒体に記録しておくことにより、他の機器でも利用価値がある。

以下、このように生成されたデータベースを用いる発音診断システム２０の各要素を説明する。

インターフェイス制御部２２は、ユーザからの操作を受付、後続プログラム部分を起動・制御する。

音声信号分析部２４は、音声波形データを読込み、これを音素の区間に分割し、分割した区分(セグメント)ごとの特徴（音響的特徴）を出力する。すなわち、音声信号分析部２４は、コンピュータを区分手段及び特徴量抽出手段として機能させる。

図１６は、音声信号分析部の構成を示す図である。音声信号分析部２４では、信号処理部２４１において、音声信号（音声波形データ）が、一定の時間間隔で分析され、ホルマント軌跡関連時系列データ（ホルマント周波数、ホルマントパワーレベル、基本周波数、音声パワーなどの時系列データ）に変換される。なお、ホルマント軌跡の代わりにケプストラム等の周波数的特徴を用いても良い。

以下、信号処理部２４１をより詳細に説明する。図１７は、信号処理部２４１の構成を示す図である。図１７に示すように、信号処理部２４１では、線形予測分析部２４１ａが、音声波形データに対して、一定の時間間隔で、全極型声道フィルターモデルによるパラメトリック分析を行い、偏相関係数の時系列ベクトルを出力する。

また、波形初期分析部２４１ｂが、高速フーリエ変換などを用いたノンパラメトリック分析によって初期音声パラメータ（基本周波数（ピッチ）、音声パワー、ゼロクロスパラメータなど）の時系列を出力する。優勢な音声区間抽出部２４１ｃは、波形初期分析部２４１ｂの出力から、単語の母体となる優勢な音声区間を抽出し、これをピッチ情報と共に出力する。

また、声道フィルターモデルの次数決定部２４１ｄが、線形予測分析部２４１ａと優勢な音声区間抽出部２４１ｃの出力から、一定の基準に基づいて声道フィルターの次数を決定する。

そして、ホルマント軌跡抽出部２４１ｅが、次数決定した声道フィルターを用いてホルマント周波数、ホルマントパワーレベルなどを計算し、基本周波数、音声パワーなどと共に、これらをホルマント軌跡関連データの時系列として出力する。

図１６に戻り、単語区分組成検索部２４２は、単語（スペル）から、あらかじめ用意されている単語区分組成ＤＢ３０を検索し、その単語に対する区分組成情報（区分要素列、たとえば、単語「berry」の場合、
Vb/Vo/Vc/Vo）を出力する。

ここで、単語区分組成ＤＢ３０について説明する。単語の発音には、音響的にみれば有声音と無声音がある。また、単語の発音は、音響的に単一の特性を持つ区間に分割できる（分割された区間をセグメントと呼ぶ）。セグメントの音響的特性は、以下のように分類することができる。
（１）有声音の分類例
強い狭窄を伴う子音(Vc)
強い狭窄を伴わない子音や母音(Vo)
有声破裂音(Vb)
（２）無声音の分類例
無声破裂音(Bu)
その他の無声音(Vl)
（３）無音の音間(Sl)

単語の発音をセグメントに区分し、上記分類例に従って分類したものを、単語区分組成と呼ぶ。例えば、単語「berry」は、上記の分類に従えばVb/Vo/Vc/Vo という区分組成となる。

単語区分組成ＤＢ３０は、このような区分組成を単語毎にリスト化したデータベースである。なお、以下では、このデータベースから得られた単語区分組成データを「単語区分組成情報」と呼ぶ。

単語区分組成検索部２４２は、かかる単語区分組成ＤＢ３０から、選択された単語に対する単語区分組成情報を検索して、音声区分化処理部２４３に出力する。

音声区分化処理部２４３は、信号処理部２４１の出力（ホルマント軌跡関連データ）を、単語区分組成検索部２４２の出力（単語区分組成情報）に基づいてセグメント分割処理する。図１８は、音声区分化処理部２４３の構成を示す図である。

音声区分化処理部２４３では、音声区間抽出部２４３ａが、単語区分組成検索部２４２からの単語区分組成情報に基づいて、ホルマント軌跡関連時系列データ中の音声区間を抽出する。この音声区間は、信号処理部２４１の出力区間の両側に存在し得る無声音声あるいは破裂音声などのピッチ周期を持たない音声区間が含まれる。

音声区間内セグメント細分化処理部２４３ｂは、音声区間抽出部２４３ａの出力（音声区間）と単語区分組成情報とに基づいて、セグメントの細分化処理を必要な回数だけ繰り返し、これを時間区分化ホルマント軌跡関連データとして出力する。

図１６において、調音的属性・特徴軸検索部２４４は、入力された単語（スペル）から、その単語の判定項目に対応した評価カテゴリ情報と特徴軸情報（複数の音響的特徴軸情報を含む場合がある）を、音響的特徴量抽出部２４５に出力する。また、この評価カテゴリ情報は、次の調音的属性推定部２６にも出力される。

音響的特徴量抽出部２４５は、音声区分化処理部２４３からの出力（時間区分化ホルマント奇跡関連データ）と、調音的属性・特徴軸検索部２４４からの出力（評価カテゴリ情報と特徴軸情報）とから、入力された音声信号の判定に必要な、音響的特徴を出力し、これを次の調音的属性推定部２６へ出力する。

図１９は、音響的特徴量抽出部２４５の構成を示す図である。図１９に示すように、音響的特徴量抽出部２４５では、一般的音響的特徴量抽出部２４５ａによって、それぞれのセグメントに対するホルマント周波数、ホルマントパワーレベルなどの、どのセグメントにも共通する音響的特徴に対する数値データ（一般的音響的特徴量）が抽出される。

また、評価カテゴリ別音響的特徴量抽出部２４５ｂによって、調音的属性・特徴軸検索部２４４の出力である評価カテゴリ情報に基づいて、単語に依存する評価カテゴリ別音響的特徴量が、必要なカテゴリ数だけ抽出される。

音響的特徴量抽出部２４５の出力は、調音的属性に対するこれら二種類の音響的特徴量のデータセットであり、これが次の調音的属性推定部２６へ送られる。

図２０は、調音的属性推定部２６による処理の流れを示す図である。図１６に示すように、調音的属性推定部２６は、単語毎に、単語組成区分ＤＢ３０から、セグメント情報（図７に示す音素を特定する情報の系列）を取得し（ステップＳ１１）、さらに音声信号分析部２４から各セグメントの音素に割り当てられた評価カテゴリ情報（図８を参照）を取得する（ステップＳ１２）。例えば、単語「belly」の例では、セグメント情報として、I33、M03、M52、F02が音素を特定する情報の系列として得られ、さらに例えばセグメント情報がM52の場合には、評価カテゴリ情報として、「舌先と口蓋の接触」、「口の開き方」、「舌先が口蓋に付いている位置」が得られる。

次いで、調音的属性推定部２６は、音声信号分析部２４から、単語毎の音響的特徴を取得する（ステップＳ１２）。単語が「belly」であれば、I33、M03、M52、F02のそれぞれに対応して、一般的特徴量と評価カテゴリ別特徴量が得られる。

次いで、調音的属性推定部２６は、評価カテゴリ毎に調音的属性推定処理を行う（ステップＳ１３）。図２１は、各評価カテゴリ毎の処理の流れを示す図である。

ステップＳ１３の処理は、評価カテゴリに対応する閾値データを閾値ＤＢ３２から読み出し（ステップＳ１３１）、評価カテゴリに対応する音響的特徴を取得する（ステップＳ１３２）。そして、取得した音響的特徴を上記の閾値データと比較して（ステップＳ１３３）、調音的属性値（推定値）を決定する（ステップＳ１３４）。

調音的属性推定部２６は、すべての評価カテゴリの処理を終了したら（ステップＳ１４）、次のセグメントの処理を行い、すべてのセグメント処理が終了したら（ステップＳ１５)、すべての評価カテゴリに対応する調音的属性値（推定値）を出力して（ステップＳ１６）、終了する。このように、調音的属性推定部２６は、コンピュータを属性値推定手段として機能させる。

なお、ステップＳ１３３における比較処理の方法としては、例えば以下の方法がある。図１１に示す音響的特徴に基づく音素の調音的属性分布と同様に、ある評価カテゴリに対応する特徴軸情報（例えば、Ｆ１、Ｆ２）にもとづく２次元座標上に、取得した音響的特徴量をプロットする。閾値データから得られた閾値軸（例えば、図１１に示す一次式）で分割した領域の片方を「正解領域」、他方を「不正解領域」とし、どちらに前記プロットした点が存在するかにより、調音的属性値（推定値）を決定する（例えば、正解領域の場合1、不正解領域の場合0とする）。その他にも、統計モデルを用いた一般的な判定器を用いて属性値を決定することもできる。また、調音的属性の種類により、その調音的属性への属否を、閾値によって明確に分割せずに中間的な値とする場合がある（例えば、0、0.25、0.5、0.75、1、の５段階の値）。

図２において、調音的属性推定部２６から出力される調音的属性値（推定値）は、評価カテゴリ毎に出力されるので、例えば、単語「belly」における音素「l」の評価カテゴリである「舌先と口蓋の接触」の調音的属性値（推定値）が1である場合には、図８に示すように「舌が口蓋についている」という判定結果が得られる。このように、発音判定部３８は、調音的属性値（推定値）から調音的属性の状態を判定できる。さらには、調音的属性ＤＢ２８から望ましい発音に対する調音的属性値を取得し、調音的属性推定部２６から出力される調音的属性値（推定値）と比較することにより、望ましい発音であるか否かの判定結果を出力する。例えば、音素「r」の発音判定で、評価カテゴリ「舌先と口蓋の接触」の調音的属性値（推定値）が1で、望ましい発音に対する調音的属性値が0であった場合、「舌が口蓋についている」ため「不合格」という判定結果を出力する。このように、発音判定部３８は、コンピュータを発音判定手段として機能させる。

また図８に示すようなメッセージは、インターフェイス制御部２２を通じて、モニタ１２ｄに表示される。また、図１０に示す矯正コンテンツ生成部３６は、矯正コンテンツＤＢ３６を参照し、不正解であった音素について、例えば音素「r」の評価カテゴリである「舌先と口蓋の接触」の判定結果が「舌が口蓋についている」ため「不合格」である場合には、「舌が口の天井に触れないように」というメッセージが得られ、このメッセージはインターフェイス制御部２２を通じてモニタ１２ｄに表示される。これによって、発音の矯正が促される。このように、インターフェイス制御部２２は、コンピュータを状態提示手段及び矯正方法提示手段として機能させる。

判定結果の詳細な表示例としては、図２２に示すように、不正解の音素について、正しく発音されていない調音的属性をすべて表示する方法や、さらに発音した単語全体について、図２３のように音素毎に合格・不合格を示した上で、不合格であった音素については正しく発音されていない調音的属性を表示するなどの方法がある。

また、他の方法として、調音器官の状態などを、スケッチや写真などの静止画や、アニメやビデオなどの動画像で表示したり、また音声（合成音や録音した音など）を使って指示するなどの種々の手段が考えられる。

同様に、図２４の表示例のように、正しく発音されなかった調音的属性を表示した上で、その矯正方法を表示するようにして、判定結果と矯正コンテンツの表示を組み合わせる方法もある。さらには、判定結果の表示と同様に、矯正すべき調音器官の状態をスケッチや写真などの静止画や、アニメやビデオなどの動画像で表示したり、また音声（合成音や録音した音など）を使って指示するなどの手段がある。

以上において、図２に示した調音的属性ＤＢ２８、単語区分組成ＤＢ３０、閾値ＤＢ３２、特徴軸ＤＢ３４、矯正コンテンツＤＢ３６は、例えば英語、米語、などの言語体系毎にCD-ROMなどの媒体に記録することができ、発音診断装置１０において利用できる。すなわち、一つの言語体系毎に一つのCD-ROMに記録し、言語体系別の学習に供することなどが可能である。

また、図３の発音診断プログラム全体も、CD-ROMなどの媒体に記録でき、発音診断装置１０において利用できるので、新たな言語体系の追加や、調音的属性データの追加などが可能である。

以上説明した、発音診断装置１０によれば、以下の効果が奏される。即ち、発音診断装置１０を使用することによって、場所を問わずに均一の発音矯正を行うことが出来るため、学習者は自分の都合に合わせて密かに学習することが出来る。また、自習をするためのソフトであるために、学校教育などでは、現場の効果を高めるための自宅学習にも採用することができる。

また、発音診断装置１０によれば、調音器官の状態や調音の様式を特定し、具体的にその要因を改善する。たとえば、音素「r」の発音時に、唇が丸まっているかどうか、日本語の「ら」のように、硬口蓋をはじいているかどうか、などのように、調音の場所および、方法を特定することも可能である。このように特に子音の発音学習に効果を発揮する。

また、発音診断装置１０によれば、たとえば、「ray」か「lay」のように、英語の辞書に存在する言葉の中で一番近いものを選び出す方法ではなく、たとえば日本語の発音方法で「レイ」と発音された場合に、調音器官の状態や調音の様式（声帯、舌の位置と形、唇の形や口の開き具合、音を作る方法など）の単位で違いを判定し、正しい発音に近づけるためにどのような行動を学習者がとるべきかを具体的に提示することができる。

また、発音診断装置１０によれば、各言語の発音に対し、発話者の母国語と、学習すべき言語の従来の弁別素性の比較をもとに、発音されるときに起こりうる不正解の音と、その音の調音の状態を予測し、あらかじめその調音特徴素性の音声分析と音響分析により、その調音特徴をもつ口腔内の状況をも予測して、差異を指摘するポイントを策定することができるため、全言語の発音訓練に対応することが出来る。

また、発音診断装置１０によれば、音が作られるときの口腔内の状態を具体的に再現できるので、多言語の習得、または言語療法のための訓練や自習が、専門の訓練士を伴わずに行うことが可能となる。

また、発音診断装置１０によれば、口腔内の状況を発話者に具体的に指摘し、矯正することが出来るので、学習者は、自己の状況を改善できないという欲求不満とストレスを感じることなく学習を進めることが可能となる。

また、発音診断装置１０によれば、例えば英語などの外国語の学習者が自分の発音の特徴を知ることができ、正しくない場合には矯正法を提示されるので、正しい反復練習が実現できる。そのため、従来の音声認識技術を用いた発音学習と比較し短期間でかつ効率的に発音の学習ができるばかりではなく、矯正法が即座に示されることでストレスも少ない学習が可能になる

また、発音診断装置１０によれば、音素を構成する調音器官の状態や調音の様式などの具体的な口腔内の要因と、その音との因果関係を解明できるので、その音のデータベースから口腔内の状態を再現することが出来る。そのことにより、発話者の口腔内を三次元的に画面上に映し出すことができる。

また、発音診断装置１０によれば、単語単位のみならず、文ないし文章までも一つの連続した音声の時系列データとみなすことができるので、文章全体の発音診断が可能となる。

図１は、本発明の実施の形態に係る発音診断装置として動作するコンピュータの構成を示す図である。図２は、発音診断システムの構成を示す図である。図３は、発音診断プログラムの処理の流れを示す図である。図４は、発音診断システムのデータベース作成手順を示す図である。図５は、発音診断システムのデータベース作成システムの構成を示す図である。図６は、カテゴリの例を示す図である。図７は、単語区分組成データベースのレコードの一例を示す図である。図８は、調音的属性データベースのレコードの一例を示す図である。図９は、特徴軸データベースのレコードの一例を示す図である。図１０は、矯正コンテンツデータベースのレコードの一例を示す図である。図１１は、調音的属性の分布の一例を示す図である。図１２は、音素「s」または音素「sh」と音素「th」との違いを判別する調音的属性分布の一例を示す図である。図１３は、音素「s」と音素「th」との発声時の調音器官の状態を示す図である。図１４は、音素「s」と音素「sh」との違いを判別する調音的属性分布の一例を示す図である。図１５は、音素「s」と音素「sh」との発声時の調音器官の状態を示す図である。図１６は、音声信号分析部の構成を示す図である。図１７は、信号処理部の構成を示す図である。図１８は、音声区分化処理部の構成を示す図である。図１９は、音響的特徴量抽出部の構成を示す図である。図２０は、調音的属性推定部の処理の流れを示す図である。図２１は、評価カテゴリ毎の処理の流れを示す図である。図２２は、判定結果の表示例を示す図である。図２３は、判定結果の表示例を示す図である。図２４は、矯正方法の表示例を示す図である。

符号の説明

１０…発音診断装置、２０…発音診断システム、２２…インターフェイス制御部、２４…音声信号分析部、２６…調音的属性推定部、２８…調音的属性データベース、３０…単語区分組成データベース、３２…閾値データベース、３４…特徴軸データベース、３６…矯正コンテンツ生成部、３８…発音判定部、４０…矯正コンテンツデータベース。

Claims

音声言語体系毎に、それを構成する子音毎に、その子音を発声する際の望ましい発音に対応する調音的属性値を有する調音的属性データベースと、
発声者が発した音声信号から子音の音響的特徴を抽出する手段と、
前記子音毎に予め定められた複数の種類の調音的属性の各々について形成される複数の分布であって、当該子音を発声する際の複数の音響的特徴の組合せによりそれぞれ定められる複数の分布の各々を、前記調音的属性への属否の境界となる閾値によって複数の領域に分割し、抽出された音響的特徴がいずれの領域に属するかを判定することにより、前記複数の種類の調音的属性の調音的属性値をそれぞれ推定する属性値推定手段と、
前記推定された複数の種類の調音的属性の調音的属性値を前記望ましい発音に対応する複数の種類の調音的属性の調音的属性値とそれぞれ比較することにより、前記発声者の子音の発音に関する判定を行う手段と、
を備え、
前記調音的属性値は、調音器官状態と、前記調音器官状態に対する力の入れ方と、前記調音器官状態に対する呼気の状態と、のうちの少なくとも一つを含む調音的属性を数値化した値であって、
前記調音器官状態は、舌の高さと、舌の位置と、舌の形状と、舌の動きと、唇の形状と、唇の開き方と、唇の動きと、声門の状態と、声帯の状態と、口蓋垂の状態と、鼻腔の状態と、上下の歯の位置と、顎の状態と、顎の動きと、のうちの少なくとも一つを含み、
前記音響的特徴は、周波数的特徴量と、音量と、持続時間と、前記周波数的特徴量の変化量と、前記音量の変化量と、前記持続時間の変化量と、前記周波数的特徴量の変化パターンと、前記音量の変化パターンと、前記持続時間の変化パターンと、のうちの少なくとも一つを含む、
発音診断装置。
前記発声者の発音診断結果を出力する手段を備えることを特徴とする請求項１記載の発音診断装置。
音声言語体系毎に、それを構成する子音毎に、当該子音に対して予め定められた複数の種類の調音的属性の各々について、調音的属性の分布を形成するための調音的属性分布形成手段と、
発声者が発した音声信号に含まれる子音の音響的特徴を抽出する音響的特徴抽出手段と、
前記調音的属性分布形成手段で形成された分布の各々を前記調音的属性への属否の境界となる音響的特徴の閾値でもって複数の領域に分割し、前記抽出された子音の音響的特徴がいずれの領域に属するかによって前記複数の種類の調音的属性の調音的属性値をそれぞれ決定する属性値推定手段と、
前記決定された複数の種類の調音的属性の調音的属性値を、前記子音を発声する際の望ましい発音に対応する複数の種類の調音的属性の調音的属性値と比較することにより、前記発声者の子音の発音に関する判定を行う手段と、
を備え、
前記調音的属性の分布の各々は、前記子音を発声する際の複数の音響的特徴の組合せにより定められ、
前記音響的特徴は、周波数的特徴量と、音量と、持続時間と、前記周波数的特徴量の変化量と、前記音量の変化量と、前記持続時間の変化量と、前記周波数的特徴量の変化パターンと、前記音量の変化パターンと、前記持続時間の変化パターンと、のうちの少なくとも一つを含み、
前記調音的属性は、調音器官状態と、前記調音器官状態に対する力の入れ方と、前記調音器官状態に対する呼気の状態と、のうちの少なくとも一つを含み、
前記調音的属性値は、前記調音的属性を数値化した値であって、
前記調音器官状態は、舌の高さと、舌の位置と、舌の形状と、舌の動きと、唇の形状と、唇の開き方と、唇の動きと、声門の状態と、声帯の状態と、口蓋垂の状態と、鼻腔の状態と、上下の歯の位置と、顎の状態と、顎の動きと、のうちの少なくとも一つを含む、
発音診断装置。
前記閾値を可変する閾値可変手段を備えることを特徴とする請求項３記載の発音診断装置。
発声者が発した音声信号から子音の音響的特徴を抽出する工程と、
前記子音毎に予め定められた複数の種類の調音的属性の各々について形成される複数の分布であって、当該子音を発声する際の複数の音響的特徴の組合せによりそれぞれ定められる複数の分布の各々を、前記調音的属性への属否の境界となる閾値によって複数の領域に分割し、前記抽出された子音の音響的特徴がいずれの領域に属するかを判定することにより、前記複数の種類の調音的属性の調音的属性値をそれぞれ推定する属性値推定工程と、
前記推定された複数の種類の調音的属性の調音的属性値を望ましい子音の発音に対応する複数の種類の調音的属性の調音的属性値とそれぞれ比較して前記発声者の子音の発音に関する判定を行う工程と、
発声者の発音診断結果を出力する工程と、
を備え、
前記調音的属性値は、音声言語体系毎に、それを構成する音素毎に、その音素を発声する際の調音的属性を数値化した値であって、
前記調音的属性は、調音器官状態と、前記調音器官状態に対する力の入れ方と、前記調音器官状態に対する呼気の状態と、のうちの少なくとも一つを含み、
前記調音器官状態は、舌の高さと、舌の位置と、舌の形状と、舌の動きと、唇の形状と、唇の開き方と、唇の動きと、声門の状態と、声帯の状態と、口蓋垂の状態と、鼻腔の状態と、上下の歯の位置と、顎の状態と、顎の動きと、のうちの少なくとも一つを含み、
前記音響的特徴は、周波数的特徴量と、音量と、持続時間と、前記周波数的特徴量の変化量と、前記音量の変化量と、前記持続時間の変化量と、前記周波数的特徴量の変化パターンと、前記音量の変化パターンと、前記持続時間の変化パターンと、のうちの少なくとも一つを含む、
発音診断方法。
音声言語体系毎に、それを構成する子音毎に、当該子音に対して予め定められた複数の種類の調音的属性の各々について、調音的属性の分布を形成するための調音的属性分布形成工程と、
発声者が発した音声信号に含まれる子音の音響的特徴を抽出する音響的特徴抽出工程と、
前記調音的属性分布形成工程において形成された分布の各々を前記調音的属性への属否の境界となる音響的特徴の閾値でもって複数の領域に分割し、前記抽出された子音の音響的特徴がいずれの領域に属するかによって前記複数の種類の調音的属性の調音的属性値をそれぞれ決定する属性値推定工程と、
前記決定された複数の種類の調音的属性の調音的属性値を、前記子音を発声する際の望ましい発音に対応する複数の種類の調音的属性の調音的属性値と比較して前記発声者の子音の発音に関する判定を行う工程と、
を備え、
前記調音的属性の分布の各々は、前記子音を発声する際の複数の音響的特徴の組合せにより定められ、
前記音響的特徴は、周波数的特徴量と、音量と、持続時間と、前記周波数的特徴量の変化量と、前記音量の変化量と、前記持続時間の変化量と、前記周波数的特徴量の変化パターンと、前記音量の変化パターンと、前記持続時間の変化パターンと、のうちの少なくとも一つを含み、
前記調音的属性は、調音器官状態と、前記調音器官状態に対する力の入れ方と、前記調音器官状態に対する呼気の状態と、のうちの少なくとも一つを含み、
前記調音的属性値は、前記調音的属性を数値化した値であって、
前記調音器官状態は、舌の高さと、舌の位置と、舌の形状と、舌の動きと、唇の形状と、唇の開き方と、唇の動きと、声門の状態と、声帯の状態と、口蓋垂の状態と、鼻腔の状態と、上下の歯の位置と、顎の状態と、顎の動きと、のうちの少なくとも一つを含む、
発音診断方法。
前記閾値を可変する閾値可変工程をさらに備えることを特徴とする請求項６記載の発音診断方法。
コンピュータに請求項５〜７のいずれか一項に記載の方法を実行させるプログラムを記録した記録媒体。
コンピュータに請求項５〜７のいずれか一項に記載の方法を実行させるコンピュータプログラム。