JPS5859498A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS5859498A
JPS5859498A JP56158311A JP15831181A JPS5859498A JP S5859498 A JPS5859498 A JP S5859498A JP 56158311 A JP56158311 A JP 56158311A JP 15831181 A JP15831181 A JP 15831181A JP S5859498 A JPS5859498 A JP S5859498A
Authority
JP
Japan
Prior art keywords
voice
vowel
section
syllable
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56158311A
Other languages
English (en)
Inventor
浜田 洋
良平 中津
直樹 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP56158311A priority Critical patent/JPS5859498A/ja
Publication of JPS5859498A publication Critical patent/JPS5859498A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 この発明は連続的に発声されたvI数個の音節から成る
音声を&!!慮しカナ文字清柿に変換する音声4繊装置
に関する啄のでるる。
音声による日本語入力を集塊するためKFJ情々の文字
対え、の音声が正しく抽出、admlされる必要がある
。従来のこの櫨の襞WK汀認織単位として音1lllI
ToるいはVCV(母音−子音1母t)音節が抹用され
ていた。曾−を単位としたものには置針、軸出re01
)4尺度を用いた会話皆声關峨システA VOムce 
Q −A System lの[0処理J信字論(D)
昭56−218CD−51)など、vcv4@を単位と
したものKは好日、中−「菫声l&iI壷方式」籍奸出
纏公舌昭55−24119などがある。しかしそれらの
方式は次のような欠点t−もってい友。
(1)を−を44率位とした場合、tlIllの境界を
正確に検出するのが1−でめり、また子音の多くが非定
常的であるため抽出された音−の認R事も低い。
(21VCV音節を認′織単位とした場合、標準バタン
の数が800以上と膨大であるため標準パタン作成のた
めの発声回数が□多く実用りでない。
この発明はこれらの欠点を牌決する丸めに認繊単位とし
て全数が100程度であって標準バタン作成が容易であ
る単音節を採用し、入力音声を母音標準バタンとの距離
、−音声%atの時間的貧化等の情報を用いて正確に音
節単位に区分すると共に、この区分された各t*の舛償
倉とあらかじめ登録しである音節の標準バタンとの時間
軸1戊化マツチングにより入力音声を音節単位で41!
i緘することを1]艷としたもので、音声による日本舟
入力を目的としたものである。
図はこの発明の一寮権例の桝敗を示すブロック図である
。!イクロホンlから0f)lIll入力信号は帯域i
Ji過フィルタ2を過p帯域制限された後^D質換器3
によりディジタル11号に変換きれる。次にこの音声デ
ィジタル信号線音声区間検出部4においてあらかじめ定
めたフレーム長、フレーム−期で音声パワを求め、その
個を適当なしきい値と比較することによりf−区間を検
出する。その各音声区間の音声ディジタル信号は督声分
析部5内の%敞抽出鄭6でフレーム毎に特歌パラメータ
に質侠される。この待献パラメーうとしては相関係数、
LPCケプストラム、aパラメータ等が用いられる。以
上の処理の結果入力音声の特徴パラメータの時系列が%
畝パラメータメモリ7に@納される。
次に廿顧区分恥8において、以下に述べるようにit頗
境界の検出を行い入力音声を被顯単位に区分する。即ち
入力音声と姑を毎に登録した母音標準バタンとの距離を
距離計算部9で計算する。母せ−準パタンに母曾榛準バ
タンメモリIOK特敏パラメータとしてあらかじめ蓄積
されている。な訃母V樟゛槃バタンとしては日本一5母
童”A 、I 。
υ、 E 、 0″と@曽の1N”および雑音の計7−
を  ′用いる。以後仁の7櫨を母音と呼ぶことにする
1Ii−尺fKついてに例えばA 、 )i 、 Gr
ay andJ  、D 、Markel  ”  D
istance Measure  for  Spe
echProcessing ’ (I E EE  
Tr、^8SP−24(1976−10))K詳しく述
べられている。
距離計算部9では特徴パラメーーメモリ7より読み出し
た入力音声の特1パラメータと母音標準/々メタンモリ
10より読み出した7檀の母it−革ノくタンとの距離
をフレーム毎に計算し、距拳値■力端子11へその値を
出力する。
母音定常部検出部12では距鍮饋出力端子11よりの出
力を受けて以下に示すように母!定常怖を検出する。第
1にフレーム毎に最も距−の近い母音を求め、各フレー
ムに1種の1111を対応させ母音のラベルを付与する
。ただし距醸値があらかじめ定め良しきい値以上の場合
はそのフレームに関しては母音ラベルを付与しない。こ
の結果母音ラベルの時系列が得られる0次に得られた#
音うベルの時系列を平滑化し、つまりt#甘せベル時禾
列中において同一ラベルのなかに他のラベルがわずか混
入された場合にその後者のラベルを前者のラベルにfl
u、同−f#曾ラベルが一定長以上逓続している区間を
母音定常部とする。ただし#!音のラベルが2tI枕し
ている区間は母音定常部としない。検出ばれた母音定常
部汀母音′定常区間出力端子13へ出力する。
無音区間検出部14では特徴パラメータメモリ7より′
f声パワを耽み出し、適当なしきいイ直と比較すること
によりfPM中でM鋏音の直前に生じる浦曽区関を棲出
し、無音区間出力端子15より出力する。
〜砿1変化値計算部16では特瀘パラメータメモリ7よ
り時値パラメータの時系列を絖み°出し゛、数フレーム
噛れたフレーム間での%献パラメータの差を求めること
により特畝量変化値を求める。
例えけ】フレームls (;7秒とし4〜5フレーム噛
れ九フレーム間で特臓パラメータの差を求めることを8
ミリ秒ごとに行いその結果得られた%黴−涙化鎌O時系
列は特鑓蒼変化倣出力端子17へ出力される。
音節境界停出部18では以下に示す手臘で音節の境界を
検出し、入力音声を音節単位に区分する。
まず無音区間出力端子15よシ入力されるf声中の無音
区間を音節境界とする。次に母音定常区間出力端子13
より母音定常区間を読みとり二つの母音犀常部の間に無
音区間が任在しない時その間で待献ti化値出力端子1
7より入力される斬隊ML化が最大となるフレームを音
節の境界とする。
以上の手順で破裂音の直前に生じる無も区間の検出によ
り音節境界を容易に検出し、無輔区間が4仕しない場合
は従来はf節境界を児付ける生状に矧られていな〃為っ
たが前記のように数フレーム離れた特融量の差の最大と
なるフレームが母首間の子音と判定し、つまり音、m#
i界を検出する。検出された音節境界と母音定常区間お
よびその母音をf#区分結米出力端子19より出力する
次に区分され九!f節を音節關繊部20で認識する。即
ち音節認識部20円のマツチング区間決定部21ではf
M認繊を行うためのマツチング区間を抽出する。マツチ
ング区間に区分式れ九各音顕の先頭のフレームを始端と
し、母f足常部の先順から一定時間後のフレームを#I
端として抽出しマツチング区間出力端子22へ出力する
。マツチング対象f節決定部23け検出された母廿定営
部と同1の母音を有するf4とし、該当するV開毛をマ
ツチング対象出力端子24へ出力する。
各vr聞は入力音声から切り出され良マツチング区間の
軸愼パラメータの時系列とあらかじめ話者罎に登録され
た音節の%徴パラメータの時系列とを時間軸正鵠化マツ
チングすることにより認繊される。
マツチングメジvtEB25ではマツチング区間出力端
子221り入力された入カーii−声のマツチング区間
の特徴パラメータの時系列を%鑓パラメータメ七り7よ
り絖み出し、またマツチング対象出力端子24より人力
された音節の標準パタンを音節標!−パタンメモリ26
よn=み出し、入力音声と標準パタンの特畝パラメータ
の時系列との距離値を時間軸正規化マツチングによ゛ジ
求める。曾節標準パタンク各話省がめらかしめ発声した
fRJより作成され、特砿パラメータの時系夕1jとし
てたくわえられている。得られた距醸イmは各標準バタ
ン毎にマツチング結果出力端子27へ出力される。
fts判定部287はマツチング蕾釆出方端子27を通
して入力されるマツチング対安のf節に対する距l@値
のうちその慣が最小である音節を判定し、その曽蒲名t
−認鷹結釆として対応するカナ文字に変侯し、認織結釆
出力端子29へ出力する。
なお以上の構成においてその各部を電子計−機により共
通に処理できる。
以上説明したようにこの発明のt声徳櫨装宵によれば (1)、値壷$位として全数100権度の単廿頗を採用
したこと【より禰準・バタンの作成が容易であり、 (2)入力を声の音節への区分に#f標準バタンとの距
J11ft′filによる母音定常部の検出、音声パワ
による無音区間の検出、4!鰍量の時間質化針簀による
音節境界の検出を採用したことtcより正確なセグメン
ト化が可能となp、 (3)  音節の4繊には特徴パラメータの時系夕IJ
と慟隼パタンの%鐵パラメータの時系夕1]との時間軸
正規化マツチングを採用したことにより発声毎の洩゛厄
・+ fr吸収したJE6i1な請膿を行うことができ
るなどのF1点がある。従ってこの始明の通用ンζより
背声簡、Jlにより正確に動作する日本語入力が’i=
J能になる。
4 図1の間車な駅明 図にこの発明の一実一例の構成を示すブロック図である
1:マイクロホン、2:帯域3I!I4フイルタ、3:
Au誕”侯j、y、4:督声区間検出部、5:せμ寸析
部、6:軸慮畑出部、7:vi値パラメータメモリ、a
 : its区5t 答ii、9:距醸計IEN、10
:母廿慄率バタンメモリ、ll:昭離他出力端子、12
:母音定線部検出部、13:母音定常区間1h力98子
、14:無音区間検出部、15:、噸廿区間出力端子、
16:特徴菫変化値計算部。
17:%fR首質化値出力端子、18:音節膚井検出部
、19:f節区分結果出力曙子、2o:廿、I6認緘都
、21:マツチング区間決定部、22:マツチング区間
出力端子、23:マッチング対象f#決定部、24:マ
ツチング対象音節出力端子、25:マッチングxS部、
26:−6−節■準バタンメモリ、27:マツチング病
理出力端子、28:音節判定部、29:認識@果出力端
子。
特許比−人  日本電信電話公社

Claims (1)

    【特許請求の範囲】
  1. α)複数制の音節から成る音声を投入して各音節を域別
    してカナ文字情報に変換する音声−鍼装箇において、入
    力音声に対しあらかじめ定めた長さのフレーム毎に音声
    パワーを算出し、その算出音声パワをあらかじめ定めた
    しきい値と比較することによ)f声区間を検出する音声
    区間検出手段と、その検出された音声区間に対してフレ
    ーム毎に上記入力音声の音声特倣量を算出する音声分析
    手段と、あらかじめ登録した母fll準バタンと上記算
    出された入力音声の1#微量時系列との距離計算を行う
    ことにより検出した母音定常部0tIlIIIIdと、
    勢倣量の時間的変化?情報とから入力音声を音順単位に
    区分するfwi区分手段と、あらかじめ登録したtm*
    準パタンを有し、上記曾節区分十設で検出した母音定常
    部と同種の母音部を有する1tll標準バタンと、上記
    音声分析手段で検出されたf#の籍畝篇時系列とをマツ
    チングすることによシ入力音声中の各音節を認識する音
    声−織手段とを^備する音声認繊装會。
JP56158311A 1981-10-05 1981-10-05 音声認識装置 Pending JPS5859498A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56158311A JPS5859498A (ja) 1981-10-05 1981-10-05 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56158311A JPS5859498A (ja) 1981-10-05 1981-10-05 音声認識装置

Publications (1)

Publication Number Publication Date
JPS5859498A true JPS5859498A (ja) 1983-04-08

Family

ID=15668851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56158311A Pending JPS5859498A (ja) 1981-10-05 1981-10-05 音声認識装置

Country Status (1)

Country Link
JP (1) JPS5859498A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6033599A (ja) * 1983-08-04 1985-02-20 松下電器産業株式会社 音声認識装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54145409A (en) * 1978-05-06 1979-11-13 Hiroya Fujisaki Monosyllable speech recognition system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54145409A (en) * 1978-05-06 1979-11-13 Hiroya Fujisaki Monosyllable speech recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6033599A (ja) * 1983-08-04 1985-02-20 松下電器産業株式会社 音声認識装置

Similar Documents

Publication Publication Date Title
CN110148402B (zh) 语音处理方法、装置、计算机设备及存储介质
Ruinskiy et al. An effective algorithm for automatic detection and exact demarcation of breath sounds in speech and song signals
JPS58130393A (ja) 音声認識装置
JPS5944639B2 (ja) 音声による異同認識方式における標準パタ−ン更新方法
WO2011046474A2 (ru) Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
KR20170073113A (ko) 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
Nagaraja et al. Mono and Cross lingual speaker identification with the constraint of limited data
WO1983002190A1 (en) A system and method for recognizing speech
JPS5859498A (ja) 音声認識装置
CN114724589B (zh) 语音质检的方法、装置、电子设备和存储介质
CN114255758B (zh) 口语评测方法及装置、设备以及存储介质
Mishra et al. Speaker identification, differentiation and verification using deep learning for human machine interface
Prasangini et al. Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka
Aliyu et al. Development of a text-dependent speaker recognition system
Sen et al. A New transform for robust Text-Independent speaker identification
JP2000148187A (ja) 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体
Kyriakides et al. Isolated word endpoint detection using time-frequency variance kernels
Teli et al. Impact of sampling frequency on Equal Error Rate performance in speaker verification using Convolution Neural Network
JPS60115996A (ja) 音声認識装置
JPS63217399A (ja) 音声区間検出装置
JPS6136798A (ja) 音声セグメンテ−シヨン法
JPS59111697A (ja) 音声認識方式
JPH02124600A (ja) 音声認識装置
JPS59224900A (ja) 音声認識方法
JP2891259B2 (ja) 音声区間検出装置