JPS5859498A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS5859498A JPS5859498A JP56158311A JP15831181A JPS5859498A JP S5859498 A JPS5859498 A JP S5859498A JP 56158311 A JP56158311 A JP 56158311A JP 15831181 A JP15831181 A JP 15831181A JP S5859498 A JPS5859498 A JP S5859498A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- vowel
- section
- syllable
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
この発明は連続的に発声されたvI数個の音節から成る
音声を&!!慮しカナ文字清柿に変換する音声4繊装置
に関する啄のでるる。
音声を&!!慮しカナ文字清柿に変換する音声4繊装置
に関する啄のでるる。
音声による日本語入力を集塊するためKFJ情々の文字
対え、の音声が正しく抽出、admlされる必要がある
。従来のこの櫨の襞WK汀認織単位として音1lllI
ToるいはVCV(母音−子音1母t)音節が抹用され
ていた。曾−を単位としたものには置針、軸出re01
)4尺度を用いた会話皆声關峨システA VOムce
Q −A System lの[0処理J信字論(D)
昭56−218CD−51)など、vcv4@を単位と
したものKは好日、中−「菫声l&iI壷方式」籍奸出
纏公舌昭55−24119などがある。しかしそれらの
方式は次のような欠点t−もってい友。
対え、の音声が正しく抽出、admlされる必要がある
。従来のこの櫨の襞WK汀認織単位として音1lllI
ToるいはVCV(母音−子音1母t)音節が抹用され
ていた。曾−を単位としたものには置針、軸出re01
)4尺度を用いた会話皆声關峨システA VOムce
Q −A System lの[0処理J信字論(D)
昭56−218CD−51)など、vcv4@を単位と
したものKは好日、中−「菫声l&iI壷方式」籍奸出
纏公舌昭55−24119などがある。しかしそれらの
方式は次のような欠点t−もってい友。
(1)を−を44率位とした場合、tlIllの境界を
正確に検出するのが1−でめり、また子音の多くが非定
常的であるため抽出された音−の認R事も低い。
正確に検出するのが1−でめり、また子音の多くが非定
常的であるため抽出された音−の認R事も低い。
(21VCV音節を認′織単位とした場合、標準バタン
の数が800以上と膨大であるため標準パタン作成のた
めの発声回数が□多く実用りでない。
の数が800以上と膨大であるため標準パタン作成のた
めの発声回数が□多く実用りでない。
この発明はこれらの欠点を牌決する丸めに認繊単位とし
て全数が100程度であって標準バタン作成が容易であ
る単音節を採用し、入力音声を母音標準バタンとの距離
、−音声%atの時間的貧化等の情報を用いて正確に音
節単位に区分すると共に、この区分された各t*の舛償
倉とあらかじめ登録しである音節の標準バタンとの時間
軸1戊化マツチングにより入力音声を音節単位で41!
i緘することを1]艷としたもので、音声による日本舟
入力を目的としたものである。
て全数が100程度であって標準バタン作成が容易であ
る単音節を採用し、入力音声を母音標準バタンとの距離
、−音声%atの時間的貧化等の情報を用いて正確に音
節単位に区分すると共に、この区分された各t*の舛償
倉とあらかじめ登録しである音節の標準バタンとの時間
軸1戊化マツチングにより入力音声を音節単位で41!
i緘することを1]艷としたもので、音声による日本舟
入力を目的としたものである。
図はこの発明の一寮権例の桝敗を示すブロック図である
。!イクロホンlから0f)lIll入力信号は帯域i
Ji過フィルタ2を過p帯域制限された後^D質換器3
によりディジタル11号に変換きれる。次にこの音声デ
ィジタル信号線音声区間検出部4においてあらかじめ定
めたフレーム長、フレーム−期で音声パワを求め、その
個を適当なしきい値と比較することによりf−区間を検
出する。その各音声区間の音声ディジタル信号は督声分
析部5内の%敞抽出鄭6でフレーム毎に特歌パラメータ
に質侠される。この待献パラメーうとしては相関係数、
LPCケプストラム、aパラメータ等が用いられる。以
上の処理の結果入力音声の特徴パラメータの時系列が%
畝パラメータメモリ7に@納される。
。!イクロホンlから0f)lIll入力信号は帯域i
Ji過フィルタ2を過p帯域制限された後^D質換器3
によりディジタル11号に変換きれる。次にこの音声デ
ィジタル信号線音声区間検出部4においてあらかじめ定
めたフレーム長、フレーム−期で音声パワを求め、その
個を適当なしきい値と比較することによりf−区間を検
出する。その各音声区間の音声ディジタル信号は督声分
析部5内の%敞抽出鄭6でフレーム毎に特歌パラメータ
に質侠される。この待献パラメーうとしては相関係数、
LPCケプストラム、aパラメータ等が用いられる。以
上の処理の結果入力音声の特徴パラメータの時系列が%
畝パラメータメモリ7に@納される。
次に廿顧区分恥8において、以下に述べるようにit頗
境界の検出を行い入力音声を被顯単位に区分する。即ち
入力音声と姑を毎に登録した母音標準バタンとの距離を
距離計算部9で計算する。母せ−準パタンに母曾榛準バ
タンメモリIOK特敏パラメータとしてあらかじめ蓄積
されている。な訃母V樟゛槃バタンとしては日本一5母
童”A 、I 。
境界の検出を行い入力音声を被顯単位に区分する。即ち
入力音声と姑を毎に登録した母音標準バタンとの距離を
距離計算部9で計算する。母せ−準パタンに母曾榛準バ
タンメモリIOK特敏パラメータとしてあらかじめ蓄積
されている。な訃母V樟゛槃バタンとしては日本一5母
童”A 、I 。
υ、 E 、 0″と@曽の1N”および雑音の計7−
を ′用いる。以後仁の7櫨を母音と呼ぶことにする
。
を ′用いる。以後仁の7櫨を母音と呼ぶことにする
。
1Ii−尺fKついてに例えばA 、 )i 、 Gr
ay andJ 、D 、Markel ” D
istance Measure for Spe
echProcessing ’ (I E EE
Tr、^8SP−24(1976−10))K詳しく述
べられている。
ay andJ 、D 、Markel ” D
istance Measure for Spe
echProcessing ’ (I E EE
Tr、^8SP−24(1976−10))K詳しく述
べられている。
距離計算部9では特徴パラメーーメモリ7より読み出し
た入力音声の特1パラメータと母音標準/々メタンモリ
10より読み出した7檀の母it−革ノくタンとの距離
をフレーム毎に計算し、距拳値■力端子11へその値を
出力する。
た入力音声の特1パラメータと母音標準/々メタンモリ
10より読み出した7檀の母it−革ノくタンとの距離
をフレーム毎に計算し、距拳値■力端子11へその値を
出力する。
母音定常部検出部12では距鍮饋出力端子11よりの出
力を受けて以下に示すように母!定常怖を検出する。第
1にフレーム毎に最も距−の近い母音を求め、各フレー
ムに1種の1111を対応させ母音のラベルを付与する
。ただし距醸値があらかじめ定め良しきい値以上の場合
はそのフレームに関しては母音ラベルを付与しない。こ
の結果母音ラベルの時系列が得られる0次に得られた#
音うベルの時系列を平滑化し、つまりt#甘せベル時禾
列中において同一ラベルのなかに他のラベルがわずか混
入された場合にその後者のラベルを前者のラベルにfl
u、同−f#曾ラベルが一定長以上逓続している区間を
母音定常部とする。ただし#!音のラベルが2tI枕し
ている区間は母音定常部としない。検出ばれた母音定常
部汀母音′定常区間出力端子13へ出力する。
力を受けて以下に示すように母!定常怖を検出する。第
1にフレーム毎に最も距−の近い母音を求め、各フレー
ムに1種の1111を対応させ母音のラベルを付与する
。ただし距醸値があらかじめ定め良しきい値以上の場合
はそのフレームに関しては母音ラベルを付与しない。こ
の結果母音ラベルの時系列が得られる0次に得られた#
音うベルの時系列を平滑化し、つまりt#甘せベル時禾
列中において同一ラベルのなかに他のラベルがわずか混
入された場合にその後者のラベルを前者のラベルにfl
u、同−f#曾ラベルが一定長以上逓続している区間を
母音定常部とする。ただし#!音のラベルが2tI枕し
ている区間は母音定常部としない。検出ばれた母音定常
部汀母音′定常区間出力端子13へ出力する。
無音区間検出部14では特徴パラメータメモリ7より′
f声パワを耽み出し、適当なしきいイ直と比較すること
によりfPM中でM鋏音の直前に生じる浦曽区関を棲出
し、無音区間出力端子15より出力する。
f声パワを耽み出し、適当なしきいイ直と比較すること
によりfPM中でM鋏音の直前に生じる浦曽区関を棲出
し、無音区間出力端子15より出力する。
〜砿1変化値計算部16では特瀘パラメータメモリ7よ
り時値パラメータの時系列を絖み°出し゛、数フレーム
噛れたフレーム間での%献パラメータの差を求めること
により特畝量変化値を求める。
り時値パラメータの時系列を絖み°出し゛、数フレーム
噛れたフレーム間での%献パラメータの差を求めること
により特畝量変化値を求める。
例えけ】フレームls (;7秒とし4〜5フレーム噛
れ九フレーム間で特臓パラメータの差を求めることを8
ミリ秒ごとに行いその結果得られた%黴−涙化鎌O時系
列は特鑓蒼変化倣出力端子17へ出力される。
れ九フレーム間で特臓パラメータの差を求めることを8
ミリ秒ごとに行いその結果得られた%黴−涙化鎌O時系
列は特鑓蒼変化倣出力端子17へ出力される。
音節境界停出部18では以下に示す手臘で音節の境界を
検出し、入力音声を音節単位に区分する。
検出し、入力音声を音節単位に区分する。
まず無音区間出力端子15よシ入力されるf声中の無音
区間を音節境界とする。次に母音定常区間出力端子13
より母音定常区間を読みとり二つの母音犀常部の間に無
音区間が任在しない時その間で待献ti化値出力端子1
7より入力される斬隊ML化が最大となるフレームを音
節の境界とする。
区間を音節境界とする。次に母音定常区間出力端子13
より母音定常区間を読みとり二つの母音犀常部の間に無
音区間が任在しない時その間で待献ti化値出力端子1
7より入力される斬隊ML化が最大となるフレームを音
節の境界とする。
以上の手順で破裂音の直前に生じる無も区間の検出によ
り音節境界を容易に検出し、無輔区間が4仕しない場合
は従来はf節境界を児付ける生状に矧られていな〃為っ
たが前記のように数フレーム離れた特融量の差の最大と
なるフレームが母首間の子音と判定し、つまり音、m#
i界を検出する。検出された音節境界と母音定常区間お
よびその母音をf#区分結米出力端子19より出力する
。
り音節境界を容易に検出し、無輔区間が4仕しない場合
は従来はf節境界を児付ける生状に矧られていな〃為っ
たが前記のように数フレーム離れた特融量の差の最大と
なるフレームが母首間の子音と判定し、つまり音、m#
i界を検出する。検出された音節境界と母音定常区間お
よびその母音をf#区分結米出力端子19より出力する
。
次に区分され九!f節を音節關繊部20で認識する。即
ち音節認識部20円のマツチング区間決定部21ではf
M認繊を行うためのマツチング区間を抽出する。マツチ
ング区間に区分式れ九各音顕の先頭のフレームを始端と
し、母f足常部の先順から一定時間後のフレームを#I
端として抽出しマツチング区間出力端子22へ出力する
。マツチング対象f節決定部23け検出された母廿定営
部と同1の母音を有するf4とし、該当するV開毛をマ
ツチング対象出力端子24へ出力する。
ち音節認識部20円のマツチング区間決定部21ではf
M認繊を行うためのマツチング区間を抽出する。マツチ
ング区間に区分式れ九各音顕の先頭のフレームを始端と
し、母f足常部の先順から一定時間後のフレームを#I
端として抽出しマツチング区間出力端子22へ出力する
。マツチング対象f節決定部23け検出された母廿定営
部と同1の母音を有するf4とし、該当するV開毛をマ
ツチング対象出力端子24へ出力する。
各vr聞は入力音声から切り出され良マツチング区間の
軸愼パラメータの時系列とあらかじめ話者罎に登録され
た音節の%徴パラメータの時系列とを時間軸正鵠化マツ
チングすることにより認繊される。
軸愼パラメータの時系列とあらかじめ話者罎に登録され
た音節の%徴パラメータの時系列とを時間軸正鵠化マツ
チングすることにより認繊される。
マツチングメジvtEB25ではマツチング区間出力端
子221り入力された入カーii−声のマツチング区間
の特徴パラメータの時系列を%鑓パラメータメ七り7よ
り絖み出し、またマツチング対象出力端子24より人力
された音節の標準パタンを音節標!−パタンメモリ26
よn=み出し、入力音声と標準パタンの特畝パラメータ
の時系列との距離値を時間軸正規化マツチングによ゛ジ
求める。曾節標準パタンク各話省がめらかしめ発声した
fRJより作成され、特砿パラメータの時系夕1jとし
てたくわえられている。得られた距醸イmは各標準バタ
ン毎にマツチング結果出力端子27へ出力される。
子221り入力された入カーii−声のマツチング区間
の特徴パラメータの時系列を%鑓パラメータメ七り7よ
り絖み出し、またマツチング対象出力端子24より人力
された音節の標準パタンを音節標!−パタンメモリ26
よn=み出し、入力音声と標準パタンの特畝パラメータ
の時系列との距離値を時間軸正規化マツチングによ゛ジ
求める。曾節標準パタンク各話省がめらかしめ発声した
fRJより作成され、特砿パラメータの時系夕1jとし
てたくわえられている。得られた距醸イmは各標準バタ
ン毎にマツチング結果出力端子27へ出力される。
fts判定部287はマツチング蕾釆出方端子27を通
して入力されるマツチング対安のf節に対する距l@値
のうちその慣が最小である音節を判定し、その曽蒲名t
−認鷹結釆として対応するカナ文字に変侯し、認織結釆
出力端子29へ出力する。
して入力されるマツチング対安のf節に対する距l@値
のうちその慣が最小である音節を判定し、その曽蒲名t
−認鷹結釆として対応するカナ文字に変侯し、認織結釆
出力端子29へ出力する。
なお以上の構成においてその各部を電子計−機により共
通に処理できる。
通に処理できる。
以上説明したようにこの発明のt声徳櫨装宵によれば
(1)、値壷$位として全数100権度の単廿頗を採用
したこと【より禰準・バタンの作成が容易であり、 (2)入力を声の音節への区分に#f標準バタンとの距
J11ft′filによる母音定常部の検出、音声パワ
による無音区間の検出、4!鰍量の時間質化針簀による
音節境界の検出を採用したことtcより正確なセグメン
ト化が可能となp、 (3) 音節の4繊には特徴パラメータの時系夕IJ
と慟隼パタンの%鐵パラメータの時系夕1]との時間軸
正規化マツチングを採用したことにより発声毎の洩゛厄
・+ fr吸収したJE6i1な請膿を行うことができ
るなどのF1点がある。従ってこの始明の通用ンζより
背声簡、Jlにより正確に動作する日本語入力が’i=
J能になる。
したこと【より禰準・バタンの作成が容易であり、 (2)入力を声の音節への区分に#f標準バタンとの距
J11ft′filによる母音定常部の検出、音声パワ
による無音区間の検出、4!鰍量の時間質化針簀による
音節境界の検出を採用したことtcより正確なセグメン
ト化が可能となp、 (3) 音節の4繊には特徴パラメータの時系夕IJ
と慟隼パタンの%鐵パラメータの時系夕1]との時間軸
正規化マツチングを採用したことにより発声毎の洩゛厄
・+ fr吸収したJE6i1な請膿を行うことができ
るなどのF1点がある。従ってこの始明の通用ンζより
背声簡、Jlにより正確に動作する日本語入力が’i=
J能になる。
4 図1の間車な駅明
図にこの発明の一実一例の構成を示すブロック図である
。
。
1:マイクロホン、2:帯域3I!I4フイルタ、3:
Au誕”侯j、y、4:督声区間検出部、5:せμ寸析
部、6:軸慮畑出部、7:vi値パラメータメモリ、a
: its区5t 答ii、9:距醸計IEN、10
:母廿慄率バタンメモリ、ll:昭離他出力端子、12
:母音定線部検出部、13:母音定常区間1h力98子
、14:無音区間検出部、15:、噸廿区間出力端子、
16:特徴菫変化値計算部。
Au誕”侯j、y、4:督声区間検出部、5:せμ寸析
部、6:軸慮畑出部、7:vi値パラメータメモリ、a
: its区5t 答ii、9:距醸計IEN、10
:母廿慄率バタンメモリ、ll:昭離他出力端子、12
:母音定線部検出部、13:母音定常区間1h力98子
、14:無音区間検出部、15:、噸廿区間出力端子、
16:特徴菫変化値計算部。
17:%fR首質化値出力端子、18:音節膚井検出部
、19:f節区分結果出力曙子、2o:廿、I6認緘都
、21:マツチング区間決定部、22:マツチング区間
出力端子、23:マッチング対象f#決定部、24:マ
ツチング対象音節出力端子、25:マッチングxS部、
26:−6−節■準バタンメモリ、27:マツチング病
理出力端子、28:音節判定部、29:認識@果出力端
子。
、19:f節区分結果出力曙子、2o:廿、I6認緘都
、21:マツチング区間決定部、22:マツチング区間
出力端子、23:マッチング対象f#決定部、24:マ
ツチング対象音節出力端子、25:マッチングxS部、
26:−6−節■準バタンメモリ、27:マツチング病
理出力端子、28:音節判定部、29:認識@果出力端
子。
特許比−人 日本電信電話公社
Claims (1)
- α)複数制の音節から成る音声を投入して各音節を域別
してカナ文字情報に変換する音声−鍼装箇において、入
力音声に対しあらかじめ定めた長さのフレーム毎に音声
パワーを算出し、その算出音声パワをあらかじめ定めた
しきい値と比較することによ)f声区間を検出する音声
区間検出手段と、その検出された音声区間に対してフレ
ーム毎に上記入力音声の音声特倣量を算出する音声分析
手段と、あらかじめ登録した母fll準バタンと上記算
出された入力音声の1#微量時系列との距離計算を行う
ことにより検出した母音定常部0tIlIIIIdと、
勢倣量の時間的変化?情報とから入力音声を音順単位に
区分するfwi区分手段と、あらかじめ登録したtm*
準パタンを有し、上記曾節区分十設で検出した母音定常
部と同種の母音部を有する1tll標準バタンと、上記
音声分析手段で検出されたf#の籍畝篇時系列とをマツ
チングすることによシ入力音声中の各音節を認識する音
声−織手段とを^備する音声認繊装會。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56158311A JPS5859498A (ja) | 1981-10-05 | 1981-10-05 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56158311A JPS5859498A (ja) | 1981-10-05 | 1981-10-05 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS5859498A true JPS5859498A (ja) | 1983-04-08 |
Family
ID=15668851
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP56158311A Pending JPS5859498A (ja) | 1981-10-05 | 1981-10-05 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5859498A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6033599A (ja) * | 1983-08-04 | 1985-02-20 | 松下電器産業株式会社 | 音声認識装置 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS54145409A (en) * | 1978-05-06 | 1979-11-13 | Hiroya Fujisaki | Monosyllable speech recognition system |
-
1981
- 1981-10-05 JP JP56158311A patent/JPS5859498A/ja active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS54145409A (en) * | 1978-05-06 | 1979-11-13 | Hiroya Fujisaki | Monosyllable speech recognition system |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6033599A (ja) * | 1983-08-04 | 1985-02-20 | 松下電器産業株式会社 | 音声認識装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110148402B (zh) | 语音处理方法、装置、计算机设备及存储介质 | |
| Ruinskiy et al. | An effective algorithm for automatic detection and exact demarcation of breath sounds in speech and song signals | |
| JPS58130393A (ja) | 音声認識装置 | |
| JPS5944639B2 (ja) | 音声による異同認識方式における標準パタ−ン更新方法 | |
| WO2011046474A2 (ru) | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания | |
| KR20170073113A (ko) | 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치 | |
| Nagaraja et al. | Mono and Cross lingual speaker identification with the constraint of limited data | |
| WO1983002190A1 (en) | A system and method for recognizing speech | |
| JPS5859498A (ja) | 音声認識装置 | |
| CN114724589B (zh) | 语音质检的方法、装置、电子设备和存储介质 | |
| CN114255758B (zh) | 口语评测方法及装置、设备以及存储介质 | |
| Mishra et al. | Speaker identification, differentiation and verification using deep learning for human machine interface | |
| Prasangini et al. | Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka | |
| Aliyu et al. | Development of a text-dependent speaker recognition system | |
| Sen et al. | A New transform for robust Text-Independent speaker identification | |
| JP2000148187A (ja) | 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体 | |
| Kyriakides et al. | Isolated word endpoint detection using time-frequency variance kernels | |
| Teli et al. | Impact of sampling frequency on Equal Error Rate performance in speaker verification using Convolution Neural Network | |
| JPS60115996A (ja) | 音声認識装置 | |
| JPS63217399A (ja) | 音声区間検出装置 | |
| JPS6136798A (ja) | 音声セグメンテ−シヨン法 | |
| JPS59111697A (ja) | 音声認識方式 | |
| JPH02124600A (ja) | 音声認識装置 | |
| JPS59224900A (ja) | 音声認識方法 | |
| JP2891259B2 (ja) | 音声区間検出装置 |