JPH0130160B2 - - Google Patents

Info

Publication number
JPH0130160B2
JPH0130160B2 JP58047624A JP4762483A JPH0130160B2 JP H0130160 B2 JPH0130160 B2 JP H0130160B2 JP 58047624 A JP58047624 A JP 58047624A JP 4762483 A JP4762483 A JP 4762483A JP H0130160 B2 JPH0130160 B2 JP H0130160B2
Authority
JP
Japan
Prior art keywords
standard pattern
syllable
similarity
distribution
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58047624A
Other languages
English (en)
Other versions
JPS59172694A (ja
Inventor
Hiroya Fujisaki
Keikichi Hirose
Tomohiro Inoe
Akio Yamashita
Yasuo Sato
Tadayasu Sugita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP58047624A priority Critical patent/JPS59172694A/ja
Publication of JPS59172694A publication Critical patent/JPS59172694A/ja
Publication of JPH0130160B2 publication Critical patent/JPH0130160B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は音声処理装置において標準パタンとし
て使用される音声標準パタンを作成する方式に係
り、特に特定音節を含む音声データから該音節の
標準パタンを作成するとき、該音節と同一音節を
含む多数の音声データ及び該音節と該音節を含ま
ない多数の音声データとの異種パタン間の類似度
を求め、同一音節を含む音声データとは類似度が
大きく、同一音節を含まない音声データとは類似
度が小さい音節標準パタン候補を区切つてこれを
音節標準パタンとしたものである。
〔技術の背景及び問題点〕
例えば音声認識装置の如き音声処理装置では、
未知入力音声がどのような音声であるかというこ
とを認識することが必要になる。この場合、未知
入力音声を別に格納してある既知の標準パタンと
比較して、もつとも類似している標準パタンを識
別することにより未知入力音声を認識することが
できる。
この場合、標準パタンが不正確のものでは未知
入力音声に対する識別精度が低下し、音声認識装
置としては問題が存在する。
認識すべき対象が特定話者の場合には、この特
定話者により発生された音声にもとづく登録パタ
ンを作成することにより識別精度を向上すること
ができる。
しかるに未知入力音声が特定話者に限定されな
い、不特定多数の者を対象にする音声認識装置で
は、識別精度の高い認識結果を得ることのできる
標準パタンを簡単に生成することができず、した
がつて特定話者方式の場合に比較して不特定話者
に対する音声認識は識別精度が低いという問題が
ある。
〔発明の目的〕
本発明の目的は、このような問題点を改善する
ために、標準パタンを作成するときに、特定音節
を含む比較用のパタングループと、特定音節を含
まない比較用のパタングループを使用して、複数
の比較用のパタンを用意し、標準パタンを抽出す
るときにこれらの比較用パタンと比較することに
より、同一の音節でも種々のタイプの状態の下で
のもつとも一致度の大きいものを得るようにした
音声標準パタン作成方式を提供することである。
〔発明の構成〕
この目的を達成するために、本発明の音声標準
パタン作成方式では、未知入力音声の認識を予め
登録されたCV、VCV等の音節パタン照合に基づ
き行う音声認識システムにおいて、特定音節標準
パタン候補と同一音節を含む複数の音声データを
保持する第1音声データ格納部と、特定標準パタ
ン候補と同一音節を含まない複数の音声データを
保持する第2音声データ格納部と、音節の類似度
を演算する類似度演算手段を設け、上記類似度演
算手段により特定音節標準パタン候補と、上記第
1音声データ格納部及び第2音声データ格納部か
らそれぞれ出力した音声データとの類似度を求
め、第1音声データ格納部から出力した音声デー
タとの類似度分布と第2音声データ格納部から出
力された音声データとの類似度分布との隔たりが
もつとも大きくなるように上記音節標準パタン候
補を区切りこれを上記特定音節の標準パタンとす
ることにより特定音節を含む音声データから該音
節標準パタンを得るようにしたことを特徴とす
る。
〔発明の概略〕
本発明を一実施例にもとづき詳述するに先立ち
本発明を概略説明する。例えば「KA」という音
節の標準パタンを作成するとき、「KA」と発声
してもよく、また「KA」を含む言葉、例えば
「AKASAKA」と発声してこれより抽出しても
よい。このとき A+KA+SA+KAと分離して発声をとられる
CV音節方式や、 AKA+ASA+AKAという形でとられるVCV
音節方式が ある。ここでVは母音(Vowel)、Cは子音
(Consonait)を示す。
本発明では例えば「KA」の標準パタンを作成
するとき、「KA」を含む種々の音節を多数入力
する。例えば「AKA」「IKA」「UKA」「EKA」
「OKA」等の音節や「KA」そのものを複数の人
により多数入力し、それらの特徴を抽出し、これ
を「KA」を含む第1比較グループとして格納し
ておく。また「KA」を含まない、例えば
「ASA」「ISE」「USE」「ESE」「OSE」「TABI」
「TUTE」…をこれまた複数の人により多数入力
し、それらの特徴を抽出してこれを「KA」を含
まない第2比較グループとして格納しておく。そ
れから標準パタン候補として「KA」を含む音節
を入力する。
いま、標準パタン候補の特徴が第1図イに示す
ものであり、上記第1比較グループの1つの音節
の特徴が第1図ロに示すものとしたとき、いずれ
にも「KA」が含まれているので、「KA」の部分
については類似度が非常に大きくなる。それで標
準パタン候補の特徴を始点Ts0から終点Te0まで
のLだけの区間切り出して、これを第1グループ
の1つと比較する。このとき第1図ロに示す如
く、始点ts0から終点te0までのL0の区間を抽出し
て比較を行うことになるが、ダイナミツクプログ
ラミングの手法等による伸縮を行つてもよく、比
較を短時間で行うためにL=L0の固定長(「KA」
の長さの経験則により決める)として比較しても
よい。(実際は後述する如く、Lの長さは限定さ
れず、すべての範囲で比較する。)以下の記述は
説明簡略のために固定長として比較を行う例につ
いて説明する。
このTs0〜Te0のパタンともつとも一致した第
1図ロの比較音節におけるある区分の類似度を
M0とし、次に標準パタン候補のTs1〜Te1のパタ
ンともつとも一致した比較音節の類似度をM1
する。このようにして標準パタン候補の始点と終
点を順次移動させて得られた各パタンに対して得
られた上記類似度M0、M1…のうち、もつとも大
きな類似度Mnの部分が、第1図において斜線部
として示す区分に相当することになる。そしてこ
の区分は、標準パタン候補とこの比較音節に共通
に存在する「KA」の部分と判定することができ
る。
このようにして標準パタン候補と第1比較グル
ープの各音節とを比較することにより各音節毎に
最大の類似度Mn0、Mn1…が得られることにな
る。
次に標準パタン候補と、第2比較グループの各
音節とを比較して、同様に類似度を求める。この
場合、「KA」については共通部分が存在しない
ので、当然類似度は小さくなり、もし、類似度を
距離で表現する場合には、その距離は大きくな
る。したがつて、標準パタン候補のうち、第1比
較グループとは類似度が大きく(つまり距離が小
さい)第2比較グループとは類似度が小さい(つ
まり距離が大きい)区分を切り出せば、それが標
準パタンとしては最適なものとなる。
〔発明の実施例〕
本発明の一実施例を第2図〜第7図にもとづき
説明する。
第2図は本発明の一実施例構成図、第3図は標
準パタン用フレーム列、第4図は標準パタンと比
較用パタンの比較状態説明図、第5図及び第6図
は本発明の動作説明フローチヤート、第7図は類
似度分布状態説明図である。
図中、1はパラメータ抽出部、2は比較用パタ
ン選択部、3は比較用パタン同種グループ格納
部、4は比較用パタン異種グループ格納部、5は
標準パタン候補選択部、6は類似度計算部、7は
類似度分布計算部、8はバツタチヤリヤ距離計算
部、9は最適標準パタン判定部である。
ここで比較用パタン同種グループ格納部(以下
A格納部という)3は、作成すべき標準パタンと
同じ音節を含む音声の特徴が格納されるものであ
り、例えば「KA」の標準パタンを作成する場合
には、「KA」を含む「AKA」「IKA」…「KA」
等の音声が複数の話者により入力されたときに抽
出された特徴パラメータが格納されている。
また比較用パタン異種グループ格納部(以下B
格納部という)4は、作成すべき標準パタンと同
じ音節を含まない音声の特徴が格納されるもので
あり、「KA」の標準パタンを作成する場合には、
「ASA」「ISE」「TABI」…等の音声が複数の話
者により入力されたときに抽出された特徴パラメ
ータが格納されている。ここでA格納部3とB格
納部4は別個の記憶装置を使用してもよく、同一
記憶装置の異なる記憶領域を使用してもよい。
以下本発明における第2図の回路の動作につい
て具体的に詳述する。
(1) 音節CoVoの標準パタンを求めるに先立ち、
このCoVoを含む多数の音声を複数の話者によ
り入力してパラメータ抽出部1により特徴パラ
メータを抽出し、比較用パタン選択部2を経由
してA格納部3にこれらの特徴パラメータを格
納する。次にCoVoを含まない多数の音声をこ
れまた複数の話者により入力してパラメータ抽
出部1により特徴パラメータを抽出し、同様に
してB格納部4に格納する。ここでA格納部3
に格納されたグループをAグループとし、B格
納部4に格納されたグループをBグループとい
う。
(2) 次に音節CoVoを含む音節を標準パタン候補
として入力し、これをパラメータ抽出部1で特
徴抽出して得られた、第3図に示す如き標準パ
タン用フレーム列(特徴パラメータの時系列)
を比較用パタン選択部2を経由して標準パタン
候補選択部5に保持させる。この標準パタン用
フレーム列に始点xと終点yを定め、全てのx
とyの組み合わせについて下記の如く上記Aグ
ループとBグループに属する比較用パタンと標
準パタンの最大類似度を求める。この際、一般
に比較用パタンの方が標準パタンよりも長いの
で、第4図に示す如く、上記始点xと終点yに
より抽出した標準パタンを比較用パタンに沿つ
てフレーム毎にシフトさせ、部分部分の類似度
を求め、その最大値(すなわち距離の最小のと
ころ)をもつて比較用パタンの類似度とする。
ここで標準パタンx〜yと比較用パタンX〜Y
の類似度をrxとし、 R=MAX(ri)〔i=0、1、2……〕 をこの比較用パタンの類似度とする。
(3) このために第5図のフローチヤートで示す如
く、標準パタン用フレーム列におけるサーチ範
囲x=x1〜x2、y=y1〜y2を指定して、標準パ
タン候補選択部5にてまずx=x1、y=y1の標
準パタンを切り出し、これをAグループの比較
パタンと類似度計算部6において類似度を計算
する。次にBグループの比較パタンと類似度を
同様にして計算する。これにより第7図に示す
如く、Aグループにおける類似度の分布個数と
Bグループにおける類似度の分布個数が類似度
分布計算部6において求めることができる。そ
してこれにより、同じく類似度分布計算部6に
おいてAグループ、Bグループの平均分散を推
定、つまり各分布を正規分布と仮定した場合の
平均値μ及び標準偏差σを求めることができ
る。
(4) そしてこのAグループの平均値をμi、Bグル
ープの平均値をμjとしたとき、次式によりバツ
タチヤリヤ(Bhattacharyya)の距離DBを求
める。
DB(Ai、Bj)=1/8(μi−μjt -1 〓 (μi−μj) +1/2log|〓|/|〓i 1/2||〓j 1/2| ここで〓=〓i+〓jである。
そしてこれを上記指定した範囲のすべてにお
いて求め、DBが最大となる(x、y)の組合
せをもつてCoVoに対する最良の標準パタンフ
レーム列とする。
(4)′ なお、実際のBグループの分布は、必らず
しも正規分布をなすものとは限らず、第8図
に示す如く、Aグループに近い状態の分布
B1、B2、B3…と、Aグループから遠い状態
の分布Bo、Bo+1、Bo+2…のような分布を成
す場合もある。これは「KA」の標準パタン
を求めるときにBグループとして「SA」、
「NA」…というように例えば母音が類似し
たものについてはB1、B2…の如き状態とな
り、「GI」、「DO」…というようなものにつ
いてはBo、Bo+1…の如き状態となる。した
がつて、第8図のような場合に、Aグループ
にもつとも近い集団B1、B2…を正規分布と
みなしてDBを計算して最良の標準パタンを
求めるものとする。またこのとき各集団B1
B2…とAグループとのバツタチヤリヤの距
離DB1、DB2…を求め、その調和平均 1/1/DB1+1/DB2+…… をもつてBグループのDBと定めることもできる。
なお、上記標準パタンは1回の入力音声より切
出してもよいし、複数の入力音声より標準パタン
を切出してもよい。
それから本発明は、不特定話者認識に対する標
準パタンの抽出のみに限定されるものではなく、
特定話者を対象とした登録パタンを作成するとき
でも勿論適用できるものである。
勿論パタンの切出しを効率的にするために簡単
な特徴をつかんでその近くを重点的に類似度を求
めるというような、あらかじめ既知のガイドを与
えて、検出速度を早めることもできる。
〔発明の効果〕
本発明によれば、複数の話者にもとづき多数の
比較用データを用意して、これにもとづき最適の
標準パタンを自動的に抽出することができるの
で、認識精度の高い結果を得ることができる標準
パタンを非常に簡単に求めることが可能となる。
【図面の簡単な説明】
第1図は本発明の概略説明図、第2図は本発明
の一実施例構成図、第3図は標準パタン用フレー
ム列、第4図は標準パタンと比較用パタンの比較
状態説明図、第5図及び第6図は本発明の動作説
明フローチヤート、第7図及び第8図は類似度分
布状態説明図である。 図中、1はパラメータ抽出部、2は比較用パタ
ン選択部、3は比較用パタン同種グループ格納
部、4は比較用パタン異種グループ格納部、5は
標準パタン候補選択部、6は類似度計算部、7は
類似度分布計算部、8はバツタチヤリヤ距離計算
部、9は最適標準パタン判定部である。

Claims (1)

  1. 【特許請求の範囲】 1 未知入力音声の認識を予め登録されたCV、
    VCV等の音節パタン照合に基づき行う音声認識
    システムにおいて、特定音節標準パタン候補と同
    一音節を含む複数の音声データを保持する第1音
    声データ格納部と、特定標準パタン候補と同一音
    節を含まない複数の音声データを保持する第2音
    声データ格納部と、音節の類似度を演算する類似
    度演算手段を設け、上記類似度演算手段により特
    定音節標準パタン候補と、上記第1音声データ格
    納部及び第2音声データ格納部からそれぞれ出力
    した音声データとの類似度を求め、第1音声デー
    タ格納部から出力した音声データとの類似度分布
    と第2音声データ格納部から出力された音声デー
    タとの類似度分布との隔たりがもつとも大きくな
    るように上記音節標準パタン候補を区切りこれを
    上記特定音節の標準パタンとすることにより特定
    音節を含む音声データから該音節標準パタンを得
    るようにしたことを特徴とする音声標準パタン作
    成方式。 2 上記隔たりの指標として、各分布を正規分布
    と仮定した場合の平均値、標準偏差に基づく値を
    用いるようにしたことを特徴とする特許請求の範
    囲第1項記載の音声標準パタン作成方式。 3 上記隔たりの指標としてバツタチヤリヤ
    (Bhattacharrya)の距離とすることを特徴とす
    る特許請求の範囲第1項記載の音声標準パタン作
    成方式。 4 上記隔たりの指標を求めるときに異種パタン
    間類似度の分布を複数の類からなる正規分布とみ
    なし、隔たりの少ない類の分布のみについて平均
    値、標準偏差に基づく値を用いたり、あるいはバ
    ツタチヤリヤ(Bhattacharrya)の距離を求める
    ようにしたことを特徴とする特許請求の範囲第1
    項記載の音声標準パタン作成方式。 5 上記隔たりの指標を求めるため、上記異種パ
    タン間類似度の分布を複数の類からなる正規分布
    とみなし、それぞれの類の分布について上記バツ
    タチヤリヤ(Bhattacharrya)の距離を求め、該
    距離の少ない類のその平均値乃至調和平均値、又
    は該距離の調和平均値を上記指標とすることを特
    徴とする特許請求の範囲第1項記載の音声標準パ
    タン作成方式。
JP58047624A 1983-03-22 1983-03-22 音声標準パタン作成方式 Granted JPS59172694A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58047624A JPS59172694A (ja) 1983-03-22 1983-03-22 音声標準パタン作成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58047624A JPS59172694A (ja) 1983-03-22 1983-03-22 音声標準パタン作成方式

Publications (2)

Publication Number Publication Date
JPS59172694A JPS59172694A (ja) 1984-09-29
JPH0130160B2 true JPH0130160B2 (ja) 1989-06-16

Family

ID=12780365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58047624A Granted JPS59172694A (ja) 1983-03-22 1983-03-22 音声標準パタン作成方式

Country Status (1)

Country Link
JP (1) JPS59172694A (ja)

Also Published As

Publication number Publication date
JPS59172694A (ja) 1984-09-29

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
CN108305634B (zh) 解码方法、解码器及存储介质
Etman et al. Language and dialect identification: A survey
KR870009322A (ko) 스피커 배열 언어 인식 시스템
JPS5972496A (ja) 単音識別装置
CN111128128A (zh) 一种基于互补模型评分融合的语音关键词检测方法
Sharma et al. Speech recognition in Kannada using HTK and julius: a comparative study
Bhati et al. Unsupervised Speech Signal to Symbol Transformation for Zero Resource Speech Applications.
US4987596A (en) Knowledge-guided automatic speech recognition apparatus and method
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
Bhati et al. Unsupervised Acoustic Segmentation and Clustering Using Siamese Network Embeddings.
CN110706689A (zh) 感情推测系统以及计算机可读介质
Këpuska Wake-up-word speech recognition
JPS6138479B2 (ja)
Sawakare et al. Speech recognition techniques: a review
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JPH0130160B2 (ja)
JPS6147999A (ja) 音声認識装置
Siu et al. Mllr transforms of self-organized units as features in speaker recognition
Mary et al. Keyword spotting techniques
Sabour et al. Arabic Diacritic-Aware Text-Audio Segmentation and Alignment Model (DASAM)
JPS60147797A (ja) 音声認識装置
JPH0695684A (ja) 音声認識システム
Sangeetha et al. An efficient continuous speech recognition system for Dravidian languages using support vector machine
JPH0316039B2 (ja)