JPS617890A - 音声認識対象単語検査方式 - Google Patents
音声認識対象単語検査方式Info
- Publication number
- JPS617890A JPS617890A JP59128628A JP12862884A JPS617890A JP S617890 A JPS617890 A JP S617890A JP 59128628 A JP59128628 A JP 59128628A JP 12862884 A JP12862884 A JP 12862884A JP S617890 A JPS617890 A JP S617890A
- Authority
- JP
- Japan
- Prior art keywords
- words
- distance
- consonants
- speech recognition
- vowels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は音声認識装置に識別せしめるべき単語の種類の
決定に際して、該音声認識装置に入力されることが予定
される単語相互間での誤認識を生ずることを避けるため
、事前に当該する単語を認識対象単語とすることの適否
を判定するシステムに関するものである。
決定に際して、該音声認識装置に入力されることが予定
される単語相互間での誤認識を生ずることを避けるため
、事前に当該する単語を認識対象単語とすることの適否
を判定するシステムに関するものである。
音声認識装置における音声認識の手法は、入力された音
声信号から線形予測係数やツー7 リエスペクトル係数
などの特徴パラメータを抽出して、これを予め用意して
おいた辞書中に収納しである単語等の既知の特徴パラメ
ータと比較してその距離が近いものを選び出すことによ
り特定すると云う方式が採られるのが普通である。
声信号から線形予測係数やツー7 リエスペクトル係数
などの特徴パラメータを抽出して、これを予め用意して
おいた辞書中に収納しである単語等の既知の特徴パラメ
ータと比較してその距離が近いものを選び出すことによ
り特定すると云う方式が採られるのが普通である。
前記、辞書に収納される特徴パラメータは特定話者を対
象とするものと不特定話者を対象とするものとでは若干
具なり、前者の場合、音声認識装置を使用する特定の者
が認識対象となる全単語等について予め音声入力したも
のを処理して得られたそれぞれの単語等の特徴パラメー
タを辞書中に収納しておくことにより比較的容易に目的
を達せられるが、後者では、音声の個人差による変動を
考慮しなければならないなどの条件もあって前もって多
数の音声サンプルを用いて調べることにより、標準と々
るべき特徴パラメータを定めて辞書中に格納する必要が
あるなど特定話者を対象とする場合に比して困難な条件
が多い。
象とするものと不特定話者を対象とするものとでは若干
具なり、前者の場合、音声認識装置を使用する特定の者
が認識対象となる全単語等について予め音声入力したも
のを処理して得られたそれぞれの単語等の特徴パラメー
タを辞書中に収納しておくことにより比較的容易に目的
を達せられるが、後者では、音声の個人差による変動を
考慮しなければならないなどの条件もあって前もって多
数の音声サンプルを用いて調べることにより、標準と々
るべき特徴パラメータを定めて辞書中に格納する必要が
あるなど特定話者を対象とする場合に比して困難な条件
が多い。
この様な音声認識装置において、認識対象となる単語の
中に例えば「イチカワ」と「イシカワ」の様に発音の似
たものがあると、これらはその特徴パラメータも似てい
るので、これらを辞書中に予め登録しておいた特徴パラ
メータと比較すると@誤認識を生じ易いと云う問題点が
あった。特に不特定話者を対象とする音声認識である場
合には、音声入力の個人差による変動を考慮して判定の
際の近似の度合を決める必要があるからその幅を広くせ
ざるを得す、従って、紛られしい単語間の識別は非常に
困難なものとなる。
中に例えば「イチカワ」と「イシカワ」の様に発音の似
たものがあると、これらはその特徴パラメータも似てい
るので、これらを辞書中に予め登録しておいた特徴パラ
メータと比較すると@誤認識を生じ易いと云う問題点が
あった。特に不特定話者を対象とする音声認識である場
合には、音声入力の個人差による変動を考慮して判定の
際の近似の度合を決める必要があるからその幅を広くせ
ざるを得す、従って、紛られしい単語間の識別は非常に
困難なものとなる。
従来、音声認識装置における上述の様ガ誤認識の問題に
ついては、現実のシステムにおいて実際に音声を入力し
て誤認識を生じ易い単語が発見されたとき、これを他の
単語に変えるか他の呼び方に変えるなどの方法によって
解決していた。
ついては、現実のシステムにおいて実際に音声を入力し
て誤認識を生じ易い単語が発見されたとき、これを他の
単語に変えるか他の呼び方に変えるなどの方法によって
解決していた。
しかし、不特定話者を対象とする音声’dRの場合や、
特定話者を対象とする場合であっても対象となる単語の
数が多く設定される場合には、単語間の誤認識を完全に
防止するのは容易ではなく、認識精度の高い装置を実現
するためにはデバッグに長時間を有すると云う問題点が
あった。
特定話者を対象とする場合であっても対象となる単語の
数が多く設定される場合には、単語間の誤認識を完全に
防止するのは容易ではなく、認識精度の高い装置を実現
するためにはデバッグに長時間を有すると云う問題点が
あった。
本発明はかかる従来の問題点に鑑み、音声認識装置によ
って識別せしめるべき単語を定めるとき、単語間での誤
認識の発生の可能性を事前に迅速に検査することの出来
る手段を提供することを目的としている。
って識別せしめるべき単語を定めるとき、単語間での誤
認識の発生の可能性を事前に迅速に検査することの出来
る手段を提供することを目的としている。
そしてこの目的は本発明によれば特許請求の範囲に記載
のとおシ、音声認識の対象となる単語を音節文字で入力
する手段を設けると共に、メ羊す内にすべての母音につ
いて他の母音との間の距離となる数値を対応せしめたチ
ーフルと、すべての子音について他の子音との間の距離
となる数値を対応せしめたテーブルとを設け、音声認識
の対象となる単語の内の任意の2個の単語ごとに、単語
を構成す゛る各音節文字を母音と子音との音素に分解し
て、2個の単語間の対応する位置の文字ごとに母音間の
距離と子音間の距離とを前記テーブルにより求めて、そ
の各々の値の和を文字間の距離とすることにより単語間
の類似性を検査することを特徴とする音声認識対象単語
検査方式により達成される。
のとおシ、音声認識の対象となる単語を音節文字で入力
する手段を設けると共に、メ羊す内にすべての母音につ
いて他の母音との間の距離となる数値を対応せしめたチ
ーフルと、すべての子音について他の子音との間の距離
となる数値を対応せしめたテーブルとを設け、音声認識
の対象となる単語の内の任意の2個の単語ごとに、単語
を構成す゛る各音節文字を母音と子音との音素に分解し
て、2個の単語間の対応する位置の文字ごとに母音間の
距離と子音間の距離とを前記テーブルにより求めて、そ
の各々の値の和を文字間の距離とすることにより単語間
の類似性を検査することを特徴とする音声認識対象単語
検査方式により達成される。
上記音声認識対象単語検査方式は音声認識装置によって
認識せしめようとする単語について、その音節を母音と
子音とに分解し、予め用意しておいたメモリ上のテーブ
ルを検索することにより異なる単語間の対応する音節の
母音間および子音間の距離を求めてこれらの和を蟲該音
節間の距離と成し、この様にして求めた各音節間の距離
によって、当該単語間の距離を検査している。そして、
検査の結果、単語間の距離が極端に小さいものについて
は、誤認識を発生する可能性があるので、一方の単語を
変更するなどの調整を行ガうことにより、音声認識の際
の誤動作の発生を未然に防止している。
認識せしめようとする単語について、その音節を母音と
子音とに分解し、予め用意しておいたメモリ上のテーブ
ルを検索することにより異なる単語間の対応する音節の
母音間および子音間の距離を求めてこれらの和を蟲該音
節間の距離と成し、この様にして求めた各音節間の距離
によって、当該単語間の距離を検査している。そして、
検査の結果、単語間の距離が極端に小さいものについて
は、誤認識を発生する可能性があるので、一方の単語を
変更するなどの調整を行ガうことにより、音声認識の際
の誤動作の発生を未然に防止している。
第1図は本発明の1実施例を示す機能プロツク図であっ
て、1はキーボード、2は入力制御部、3.4はレジス
タ、5は距離測定部6はメモリ、7は文字と音素の対応
テーブル、8は母音間距離テーブル、9は子音間距離テ
ーブル、10は出力@ iiはプリンタを表わしている
。
て、1はキーボード、2は入力制御部、3.4はレジス
タ、5は距離測定部6はメモリ、7は文字と音素の対応
テーブル、8は母音間距離テーブル、9は子音間距離テ
ーブル、10は出力@ iiはプリンタを表わしている
。
第1図において、検査対象の音声認識用予定単語をキー
ボード1からかな文字で入力すると、これらは一応メモ
リ6内に格納され・る。
ボード1からかな文字で入力すると、これらは一応メモ
リ6内に格納され・る。
このとき使用されるかなによる表記はかな文字46音と
濁音、鼻濁音、半濁音、促音、撥音、拗音、外来語の″
スイ”、゛ティ″などおよ−びこれらの長音274株の
中から選択された文字によって行なわれる。
濁音、鼻濁音、半濁音、促音、撥音、拗音、外来語の″
スイ”、゛ティ″などおよ−びこれらの長音274株の
中から選択された文字によって行なわれる。
次に入力制御部2はメモリ6に格納された単誤の中から
2個を選び出してそれぞれレジスタ3およびレジスタ4
に格納するが、このとき、入力制御部2は文字と音素の
対応テーブル7を参照してかな表記されている各文字を
音素に分解してそれぞれ母音と子音の組み合わせからな
る音節として格納する。
2個を選び出してそれぞれレジスタ3およびレジスタ4
に格納するが、このとき、入力制御部2は文字と音素の
対応テーブル7を参照してかな表記されている各文字を
音素に分解してそれぞれ母音と子音の組み合わせからな
る音節として格納する。
距離測定部5はこれらの単語間の対応する音節の母音同
士、子音同士について、母音間距離テーブル8、子音間
距離テーブル9を参照してそれぞれの距離を求め、1つ
の音節ごとにその母音間の距離と子音間の距離の和を計
算してその値を当該音節の距離とすることにより該当す
る単語間の距離を求める。
士、子音同士について、母音間距離テーブル8、子音間
距離テーブル9を参照してそれぞれの距離を求め、1つ
の音節ごとにその母音間の距離と子音間の距離の和を計
算してその値を当該音節の距離とすることにより該当す
る単語間の距離を求める。
この様にしてメモリ6に格納されている各単語のすべて
の組み合わせについて単語間の距離が算出されると出力
部10は予め指定されている数値以内の値の距離である
2単語をその距離の値と共に出力する。利用者は出力さ
れた単語についてその一方を変更したシ呼び方を変える
などして、メモリ6内に格納されている単語の内の該当
するものを修正して再び検査をすれば良い。
の組み合わせについて単語間の距離が算出されると出力
部10は予め指定されている数値以内の値の距離である
2単語をその距離の値と共に出力する。利用者は出力さ
れた単語についてその一方を変更したシ呼び方を変える
などして、メモリ6内に格納されている単語の内の該当
するものを修正して再び検査をすれば良い。
第2図は音素間の距離を求めるテーブルの例を示す図で
(a)は母音間距離テーブルを表わしていて第1図の8
に相当し、(b)は子音間距離テーブルを表わしていて
第1図の9に相当する。
(a)は母音間距離テーブルを表わしていて第1図の8
に相当し、(b)は子音間距離テーブルを表わしていて
第1図の9に相当する。
第2図において、同じ音素間(例えばaとa、iと1等
)は距離が0であることを示してお!’ 、”、nb等
はそれぞれ音素間の距離である数値を示している。音素
間の距離は音声学的に求めたものを使用するかまたは音
声学的に求めた値に更に使用する音声認識装置の特性値
(音声分析の手法や使用するフィルタの特性等により異
なる)を加味して設定した値を使用する。
)は距離が0であることを示してお!’ 、”、nb等
はそれぞれ音素間の距離である数値を示している。音素
間の距離は音声学的に求めたものを使用するかまたは音
声学的に求めた値に更に使用する音声認識装置の特性値
(音声分析の手法や使用するフィルタの特性等により異
なる)を加味して設定した値を使用する。
以上詳細に説明したように本発明の方式((よれば、音
声認識を行なうべき単語の設定に際し、予め、単語間の
距離を測定して1呉認識の可能性のある単語間の調整を
行なうこと〃;出来るから、認識精度の高い音声認識シ
スブ゛ムを容易に得ることが出来る利点75玉あり、ま
た音節を母音と子音とに分解して距離を求める方式を採
っているので小さなテーブルで良い(例えば「かな」同
士での距離を求めるテーブルを作ろうとすると「かな」
の表1己〃よ前述のように274種あるのでその組み合
わせ〃I膨大な数となるが本発明の方式では母音12種
と子音36種のそれぞれについて距離テーフ゛ルを作成
している)からテーブルとして必要なメモリ量は僅少で
あシ経済的な実現カニ可能であって効果は大きい。
声認識を行なうべき単語の設定に際し、予め、単語間の
距離を測定して1呉認識の可能性のある単語間の調整を
行なうこと〃;出来るから、認識精度の高い音声認識シ
スブ゛ムを容易に得ることが出来る利点75玉あり、ま
た音節を母音と子音とに分解して距離を求める方式を採
っているので小さなテーブルで良い(例えば「かな」同
士での距離を求めるテーブルを作ろうとすると「かな」
の表1己〃よ前述のように274種あるのでその組み合
わせ〃I膨大な数となるが本発明の方式では母音12種
と子音36種のそれぞれについて距離テーフ゛ルを作成
している)からテーブルとして必要なメモリ量は僅少で
あシ経済的な実現カニ可能であって効果は大きい。
第1図は本発明の1実施例を示す機能ブロック図、第2
図は音素間の距離を求めるテーブルの例を示す図である
。 1・・・キーボード、2・・・入力制御部、3.4・・
・レジスタ、5・・・距離測定部、6・・・メモ1ノ、
7・・・文字と音素の対応テーブル、8・・・母音間距
離テーブル、9・・・子音間距離テーフ゛ル、10・・
・出力部、11・・・プリンタ
図は音素間の距離を求めるテーブルの例を示す図である
。 1・・・キーボード、2・・・入力制御部、3.4・・
・レジスタ、5・・・距離測定部、6・・・メモ1ノ、
7・・・文字と音素の対応テーブル、8・・・母音間距
離テーブル、9・・・子音間距離テーフ゛ル、10・・
・出力部、11・・・プリンタ
Claims (2)
- (1)音声認識の対象となる単語を音節文字で入力する
手段を設けると共に、メモリ内にすべての母音について
他の母音との間の距離となる数値を対応せしめたテーブ
ルと、すべての子音について他の子音との間の距離とな
る数値を対応せしめたテーブルとを設け、音声認識の対
象となる単語の内の任意の2個の単語ごとに、単語を構
成する各音節文字を母音と子音との音素に分解して、2
個の単語間の対応する位置の文字ごとに母音間の距離と
子音間の距離とを前記テーブルにより求めて、その各々
の値の和を文字間の距離とすることにより単語間の類似
性を検査することを特徴とする音声認識対象単語検査方
式。 - (2)母音間の距離および子音間の距離であるテーブル
上の数値は、音声学的分析によつて求められた値に音声
認識を行なう特定の装置の特性値を加味して設定したも
のである特許請求の範囲第1項記載の音声認識対象単語
検査方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59128628A JPS617890A (ja) | 1984-06-22 | 1984-06-22 | 音声認識対象単語検査方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59128628A JPS617890A (ja) | 1984-06-22 | 1984-06-22 | 音声認識対象単語検査方式 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS617890A true JPS617890A (ja) | 1986-01-14 |
| JPH0462595B2 JPH0462595B2 (ja) | 1992-10-06 |
Family
ID=14989501
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59128628A Granted JPS617890A (ja) | 1984-06-22 | 1984-06-22 | 音声認識対象単語検査方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS617890A (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6225795A (ja) * | 1985-07-25 | 1987-02-03 | シャープ株式会社 | 音声認識装置 |
| JP2003502702A (ja) * | 1999-06-24 | 2003-01-21 | スピーチワークス・インターナショナル・インコーポレーテッド | 音声認識システムにおける発音辞書の精度の自動的決定 |
-
1984
- 1984-06-22 JP JP59128628A patent/JPS617890A/ja active Granted
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6225795A (ja) * | 1985-07-25 | 1987-02-03 | シャープ株式会社 | 音声認識装置 |
| JP2003502702A (ja) * | 1999-06-24 | 2003-01-21 | スピーチワークス・インターナショナル・インコーポレーテッド | 音声認識システムにおける発音辞書の精度の自動的決定 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0462595B2 (ja) | 1992-10-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR900009170B1 (ko) | 규칙합성형 음성합성시스템 | |
| KR101056080B1 (ko) | 음운 기반의 음성 인식 시스템 및 방법 | |
| Alotaibi | Investigating spoken Arabic digits in speech recognition setting | |
| JPS6247320B2 (ja) | ||
| Hallap et al. | Evaluating context-invariance in unsupervised speech representations | |
| Etman et al. | American dialect identification using phonotactic and prosodic features | |
| Picone et al. | Automatic text alignment for speech system evaluation | |
| CN107610691B (zh) | 英语元音发声纠错方法及装置 | |
| JPS617890A (ja) | 音声認識対象単語検査方式 | |
| Cooper et al. | Grammatical control of a phonological rule: Palatalization. | |
| Adda-Decker et al. | Pronunciation variants across systems, languages and speaking style | |
| Wang et al. | A novel method for automatic tonal and non-tonal language classification | |
| Alotaibi et al. | A new look at the automatic mapping between Arabic distinctive phonetic features and acoustic cues | |
| Cole et al. | The C-MU phonetic classification system | |
| Selouani et al. | Adaptation of foreign accented speakers in native Arabic ASR systems | |
| Marshall et al. | Stress and vowel duration effects on syllable recognition | |
| JPH0574838B2 (ja) | ||
| JP3299170B2 (ja) | 音声登録認識装置 | |
| Lee et al. | Modeling cross-morpheme pronunciation variations for korean large vocabulary continuous speech recognition. | |
| Wang et al. | Automatic Tonal and Non-Tonal Language Classification and Language Identification Using Prosodic Information. | |
| Miller | Computational Approaches to Exploring Persian-Accented English | |
| Ma et al. | Context-dependent acoustic models for Chinese speech recognition | |
| Tohkura | Speaker‐independent recognition of isolated digits using a weighted cepstral distance | |
| Ahmad et al. | Towards designing a high intelligibility rule based standard malay text-to-speech synthesis system | |
| El Méliani et al. | Specific language modelling for new-word detection in continuous-speech recognition |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| EXPY | Cancellation because of completion of term |