JPH0333280B2 - - Google Patents

Info

Publication number
JPH0333280B2
JPH0333280B2 JP59003923A JP392384A JPH0333280B2 JP H0333280 B2 JPH0333280 B2 JP H0333280B2 JP 59003923 A JP59003923 A JP 59003923A JP 392384 A JP392384 A JP 392384A JP H0333280 B2 JPH0333280 B2 JP H0333280B2
Authority
JP
Japan
Prior art keywords
phoneme
consonant
vowel
section
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59003923A
Other languages
English (en)
Other versions
JPS60147797A (ja
Inventor
Satoshi Fujii
Hideji Morii
Masakatsu Hoshimi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59003923A priority Critical patent/JPS60147797A/ja
Publication of JPS60147797A publication Critical patent/JPS60147797A/ja
Publication of JPH0333280B2 publication Critical patent/JPH0333280B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
産業上の利用分野 本発明は人間の声によつて発声された音声信号
を自動的に認識するための、音声認識装置に関す
るものである。 従来例の構成とその問題点 音声を自動的に認識する音声認識装置は人間か
ら電子計算機や各種機械へデータや命令を与える
手段として非常に有効と考えられる。 従来研究あるいは発表されている音声認識装置
の動作原理としてはパターンマツチング法が多く
採用されている。この方法は認識される必要があ
る全種類の単語に対して標準パターンをあらかじ
め記憶しておき、入力される未知の入力パターン
と比較することによつて一致の度合(以下類似度
と呼ぶ)を計算し、最大一致が得られる標準パタ
ーンと同一の単語であると判定するものである。
このパターンマツチング法では認識されるべき全
ての単語に対して標準パターンを用意しなければ
ならないため、発声者が変つた場合には新しく標
準パターンを入力して記憶させる必要がある。従
つて数百種類以上の単語を認識対象とするような
場合、全種類の単語を発声して登録するには時間
と労力を必要とし、又登録に要するメモリー容量
も膨大になることが予想される。さらに入力パタ
ーンと標準パターンのパターンマツチングに要す
る時間も単語数が多くなると長くなつてしまう欠
点がある。 これに対して、入力音声を音素単位に分けて音
素の組合せとして認識し(以下音素認識と呼ぶ)
音素単位で表記された単語辞書との類似度を求め
る方法は単語辞書に要するメモリー容量が大幅に
少なくて済み、パターンマツチングに要する時間
が短く、辞書の内容変更も容易であるという特長
を持つている。例えば「赤い」という発声は/
a/、/k/、/i/という三つの音素を組合せ
てAKAIという極めて簡単な形式で表現すること
ができるため、不特定話者で多数語の音声に対処
することが容易である。 第1図に音素認識を行うことを特徴とする音声
認識方式のブロツク図を示す。マイク等で入力さ
れた音声は音響分析部1によつて分析を行なう。
分析方法としては帯域フイルタ群が線形予測分析
を用い、フレーム周期(10ms程度)毎にスペク
トル情報を得る。音素判別部2では、音響分析部
1で得たスペクトル情報を用い、標準パターン格
納部3のデータによつてフレーム毎の音素判別を
行なう。標準パターン格納部3に格納された標準
パターンは、あらかじめ多数話者の音声より音素
毎に求めておく。セグメンテーシヨン部4では、
音響分析部1の分析出力をもとに音声区間の検出
と音素毎の境界決定(以下セグメンテーシヨンと
呼ぶ)を行う。音素認識部5ではセグメンテーシ
ヨン部4と音素判別部2の結果をもとに1つの音
素区間に何という音素であるかを決定する作業を
行う。この結果として音素の系列が完成する。単
語認識部6では、この音素系列を、同様に音素系
列で表記された単語辞書7と照合し、最も類似度
の高い単語を認識結果として出力する。 前記従来のセグメンテーシヨン部4では、子音
のセグメンテーシヨンを次のように行つていた。
第2図aはパワーの時間に対する変化の大きさ
を、第2図bはパワーの変化速度の時間に対する
変化の大きさを示したもので、帯域フイルタを用
いたパワーの時間的変化の形8が凹状の形をして
いる時(これをデイツプと呼ぶ)、パワーが極小
値を示すフレームをn1とし、n1の前後のフレーム
でパワーの時間による変化速度(これをパワーの
差分値と呼ぶ)9が負および正の舷大値を示すフ
レームをn2、n3とする。また、あるフレームnに
おける差分値をWD(n)とすると、 WD(n3)−WD(n2)θ〓 (1) の条件を満足する時、n2〜n3までの区間を子音区
間としていた。ここでθ〓は子音の付加を防ぐため
のいき値で予め統計的な分布に基づき決定される
ものである。 セグメンテーシヨン部4および音素判別部2の
詳細を第3図に示す。セグメンテーシヨン部4は
デイツプ検出部31、子音区間決定部32、子音
判定部33からなり音響分析で得た帯域フイルタ
のパワーを用いてデイツプ検出部31にて前記デ
イツプ検出を行い、子音区間決定部32で第2図
のn2〜n3間を子音区間として決定する。この区間
に対してスペクトル形状をもとに子音判定部33
にて子音判定を行う。一方、音素判別部2は母音
候補抽出部35と母音区間決定部36よりなり音
響分析で得たLPCケプストラム係数を用いて、
標準パタン格納部3に対する類似度計算を母音候
補抽出部35にて行い、最も類似度の高い音素を
母音候補として抽出する。この場合標準パターン
格納部3は5母音および鼻音を対象として、フレ
ーム毎のLPCケプストラム係数を用いて作成し
ておく。この結果を子音区間決定部32で求めた
子音区間以外に適用し、母音区間および母音の種
類を母音区間決定部36で決定する。この結果を
子音判定部33の結果と組合せることによつて音
素認識部5にて音素認識を行い、第1図に示した
単語認識部6へ送る。 この方法によれば音素のセグメンテーシヨン、
判別を良好に行なうことができるが、デイツプの
存在によつて一義的に音素境界を決定してしまう
ために、欠点が2つある。その1つは母音中でパ
ワーが不安定になつた時にもデイツプとして検出
してしまうため子音が付加されてしまい、日本語
の規則により必然的に母音が付加されるため、結
果として子音1個の付加によつて2音素付加にな
つてしまうことである。もう1つはデイツプの区
間が必ずしも正しい境界を表わさないことによ
り、母音、子音間の正しい境界が保証されなくな
つてしまうことである。これによつて、母音、子
音の判別誤り、単母音と長母音の判別誤りなどを
生ずる。 第4図にその1例を示す。これは「番号」と発
声した例で、aのラベルで各音素の位置を示す。
第3図のデイツプ検出部31でデイツプcを検出
し、その結果を子音区間決定部32に転送し、さ
らに子音判定部33で判定した結果をdに示す。
一方母音候補抽出部35の抽出結果をeに示し、
子音区間決定部32の結果と母音候補eとを組合
せて母音区間決定部36で母音認識を行う。その
結果をfに示す。その母音認識結果fと子音認識
結果dとを音素認識部5へ転送し、認識結果bを
得る。子音認識dの項には、デイツプcの位置に
よつて第2図n2〜n3間を子音の区間として決定
し、標準パターンに対するスペクトルの類似度に
よつて音素の種類を決定した結果を示す。母音候
補eの項では母音および鼻音を対象にスペクトル
の類似度の最も高い音素を示す。子音認識dの境
界を正しい境界として母音候補eを機械的に組み
合わせることにより、認識結果bの項で示すよう
な音素系列が作成される。 ラベルaと認識結果bとを比較すると、/h/
と/u/が付加している。又、/N/が/n/に
置換し、/〓/の区間が誤つている。 これは単なる一例であり、第2図で示したデイ
ツプの区間が必ずみも子音の境界を表わさないこ
とが原因で起るものである。 このような誤りが発生する頻度は人によつて異
なり、発声方法の不安定な発声者や、デイツプを
検出するための帯域フイルタに対する周波数特性
のずれの大きい発声者に対して誤りが生ずる。そ
の結果、音素の付加、脱落、置換が多発し、単語
認識の性能を劣化させてしまう欠点があつた。 発明の目的 本発明は前記欠点を解消し、音素のセグメンテ
ーシヨンの精度および音素判別を向上させること
によつて高性能な音声認識方法を提供することを
目的とする。 発明の構成 本発明は前記目的を達成するもので、標準パタ
ーンに対する音素の類似度を求め、またパワーの
変化に基づいて子音候補の位置を求め、母音候補
と子音候補それぞれの標準パターンに対する類似
度の連続性性および強度を互いに比較することに
より音素区間を修正決定する音素境界決定部を設
けることによつて音素間の境界の位置および境界
間の音素の種類を精度良く決定し、高性能な音浸
認識を行うことを可能とするものである。 実施例の説明 以下に本発明の実施例を図面とともに説明す
る。 第4図に示したような誤りが生ずるのは、デイ
ツプの区間が必ずしも子音の境界を表わさない原
因によるものである。デイツプはパワーの変動に
よつて生ずるが、スペクトルの変動とは必ずしも
対応しない。すなわち、デイツプが存在してもス
ペクトルの変動がなければそこに子音は存在しな
いと考えることができる。又、デイツプの始端又
は終端の位置ではスペクトルが安定し、それ以外
の位置でスペクトルが大きく変化していれば、真
の音素境界はその位置にあると考えることができ
る。本実施例はこの性質を積極的に利用して子音
と母音の境界を精度よく決定することを可能とし
たものである。 第5図に本発明の一実施例である音声認識装置
の主要部分のブロツク図を示す。 標準パターン格納部44に格納される標準パタ
ーンは母音および鼻音を対象に音素中心付近nフ
レームのp次LPCケプストラム係数を用いて作
成しておく。すなわち時間−周波数軸の2次元パ
ターンで構成する。音素iのnフレーム目におけ
るp次LPCケプストラム係数をCiopと表わし、ベ
クトル〓iを作成する。 〓i=(Ci11、Ci12、…、Ci1p、Ci21、…、Ci31、…
Cio1、…、Ciop) 多数の音声による〓iを集計し、〓iの平均値を
mij(jはパラメータの順番を表わし、最大はk=
n×p)とする。共分散行列を音素の種類にかか
わらず共通とし、〓で表わす。〓の逆行列を〓-1
とし、(j、j′)要素をσjj′とすると、音素iのj
番目のパターンに対する重み係数aijは aij=2Kj=1 σij′mij′ (2) で表わすことができる。 多数話者の音声データより得られたパラメータ
x(x1、x2、…、xj、…、xk)の音素iの分布に
対するマハラノビス距Di 2は Di 2=xt-1x−Kj=1 aijxj+mi i-1mi (3) で表わすことができる。tは転置行列を表わす。
(3)式の第1項は音素の種類に依存しないため省略
し、類似度Liを簡易的に LiKj=1 aijxj−mi tW-1mi (4) で求めることができる。 従つて、標準パターン格納部44には(4)式のaij
および定数mi tW-1miを入れておけば良い。 次に入力音声より得られたパラメータx(x1
x2、…、xj、xk)に対する類似度Liを(4)式を用い
て母音候補抽出部45で算出し、母音に対する類
似度の連続性および強度によるスペクトルの安定
性に基づき母音候補を抽出し、その結果を母音区
間記憶部46へ転送する。 一方、音響分析を行つた後、デイツプ検出部4
0にて帯域フイルタのパワーのデイツプ検出を行
う。子音区間検出部41で第2図に示すn2〜n3
を仮の子音区間とし子音区間記憶部42にその結
果を転送する。デイツプ検出部40と子音区間決
定部41で子音候補抽出部49を構成する。子音
区間記憶部42と母音区間記憶部46とを音素境
界決定部47にて照合し、音素境界の決定を行
う。この場合標準パターン格納部44は音素中心
付近の複数フレームで統計的に構成してあるた
め、母音中のスペクトルのわずかな変動は母音中
におけるスペクトルの単なる乱れであるとして吸
収することができる。又、子音との境界における
あいまい領域ではスペクトルが時間的に安定でな
いため大きな類似度が表われない。この性質を利
用することによつて母音区間を精度良く抽出する
ことができる。 従つて音素境界の存在する可能性のない子音候
補は取除き、子音区間の大きく誤つたものは修正
して、結果を子音に対しては子音区間記憶部42
に、母音に対しては母音区間記憶部46にもどす
ことができる。 次に音素境界決定部47で決定され子音区間記
憶部42に格納された子音の区間に対し子音判定
部43にて新しい区間における標準パターンに対
するスペクトルの類似度を計算し子音判定行う。
この結果と母音区間記憶部46の結果と組合わせ
ることによつて音素認識部48で音素認識を行
い、その結果を単語認識部に転送する。 第6図に本実施例により認識を行つた例を示
す。図においてaは視察によつて決定されたラベ
ルを示す。cは第5図のデイツプ検出部40によ
り検出されたデイツプ領域を示し、dは子音区間
決定部41で決定された子音候補を示す。またe
は音素境界決定部47により修正を加えられた子
音候補であり、5はeに示した子音候補を子音判
定部43で判定した子音認識結果を示す。さらに
gは母音候補抽出部45で抽出した母音候補を示
し、hは音素境界決定部47により修正を加えら
れた母音認識結果を示す。bは前記子音認識結果
fと母音認識結果hとから音素認識部48により
認識された認識結果を示す。 本実施例の場合、まず子音認識についてはデイ
ツプ検出部40で第6図cに示すデイツプ位置を
検出する。このデイツプ位置に対し、子音区間決
定部41で第6図dに示す子音候補/b/、/
n/、/m/、/h/を抽出し、子音区間記憶部
42へ転送する。 一方、母音認識については標準パターン格納部
44に格納された、時間−周波数パターンで構成
された標準パターンを用いて、母音抽出部45に
て各フレーム毎に最も類似度の高い音素を選び、
第6図gに示す母音候補を抽出し、母音区間記憶
部46へ転送する。 音素境界決定部47では、子音区間記憶部42
と母音区間記憶部46の結果を参照して精度の高
い音素境界の最終決定を行なう。 前述したように、標準パターンに時間−周波数
パターンを用いて母音候補を抽出することよつ
て、次のような性質がある。 母音区間中のスペクトルの小さい乱れを吸収
し安定に母音を抽出することができる。 渡りの部分は時間間的にスペクトルが安定し
ないため、余分な母音候補の抽出を防ぐことが
できる。 母音中でパワーが不安定なためにデイツプで
付加された子音候補を、母音候補の安定性によ
つて取除くことができる。 本実施例はこの性質を積極的に利用し、以下の
処理を行なう。まず、第6図dで示す、子音/
h/の付加の部分では、gに示す母音候補の/
o/が長い区間に渡つて安定に抽出されているた
め、、の性質を用いて取除くことができる。
又、ラベルaに示す/N/の部分では、母音候補
gを見ると/N/以外に安定な母音候補が抽出さ
れないというの性質を利用することにより、c
に示す次のデイツプまでの区間をhに示すよう
に/N/と決定することができる。又、dに示
す/m/の区間で、gの母音候補を見ると、/
m/の区間の一部と/o/が重なつており、こ
の/o/は長い区間に渡つて安定していることか
らの性質を利用することによつて/m/の区間
を修正することができる。その結果を第6図eに
示す。 以上の処理の結果、子音区間は第6図eとして
子音区間記憶部42に転送し、母音区間は第6図
hとして母音区間記憶部46を経由して音素認識
部48に転送する。 子音判定部43では、第6図eに示した子音候
補の中で、音素境界の修正された音素/m/に対
して見直しを行ない、標準パターンのスペクトル
に対する類似度を求めて最も類似度の高い要素/
〓/に修正し、子音認識結果fとして音素認識部
48に転送する。 このように本方法では、デイツプによる子音候
補の検出とスペクトルの安定性を併用することに
よつて、より精密な音素のセグメンテーシヨンお
よび音素判別を実現することができる。 本方法を用いて、成人男子10名の発声した2120
単語を対象に音素認識し、評価した結果を表に示
す。
【表】 表から明らかなように、全音素の平均認識率
82.6%の良好な値を得ることができる。又、音素
付加率4.8%、音素脱落率3.9%の極めて少ない付
加、脱落誤りで精度の高い音素系列を作成するこ
とができる。 なお前記実施例ではスペクトル情報として
LPCケプストラム係数を用いた場合について述
べたが、フイルタバンク出力等、他の情報であつ
ても良い。 発明の効果 以上要するに本発明は標準パターンに対する音
素の類似度を求め、またパワーの変化に基づいて
子音候補を求め、母音候補と子音候補それぞれの
標恕パターンに対する類似度の連続性および強度
を互いに比較することにより音素区間を修正する
ことによつて、音素間の境界の位置および境界間
の音素の種類を精度良く決定し、信頼性の高い音
声認識を実現することができる利点を有する。
【図面の簡単な説明】
第1図は従来の音声認識装置のブロツク図、第
2図はパワー及びパワーの変化速度の時間に対す
る変化の様子を示した図、第3図は従来の音声認
識装置の要部のブロツク図、第4図は同装置によ
り認識を行つた一例を示す図、第5図は本発明の
一実施例における音声認識装置の要部のブロツク
図、第6図は同装置による認識結果の一例を示す
図である。 40……デイツプ検出部、41……子音区間決
定部、42……子音区間記憶部、43……子音判
定部、44……標準パターン格納部、45……母
音候補抽出部、46……母音区間記憶部、47…
…音素境界決定部、48……音素認識部、49…
…子音候補抽出部。

Claims (1)

  1. 【特許請求の範囲】 1 多数話者の音声より得られたスペクトル情報
    を用いて統計的距離尺度に基づき構成された標準
    パターンを予め格納する標準パターン格納部と、
    スペクトル情報を用いて分析区間毎に前記標準パ
    ターンに対する音素の類似度を統計的距離尺度に
    基づき抽出する母音候補抽出部と、パワーの時間
    変化によるデイツプを用いて子音候補を求める子
    音候補抽出部と、前記母音候補抽出部および子音
    候補抽出部で抽出された母音候補と子音候補に対
    し類似度の連続性および強度を用いて音素区間を
    修正決定する音素境界決定部と、前記音素境界決
    定部で決定された音素区間の音素の種類を決定す
    る音素認識部とを少なくとも有することを特徴と
    する音声認識装置。 2 標準パターンが、音素中心付近の複数の分析
    区間長のスペクトル情報を用いて時間−周波数の
    二次元パターンによつて統計的距離尺度に基づき
    構成されたものであることを特徴とする特許請求
    の範囲第1項記載の音声認識装置。
JP59003923A 1984-01-12 1984-01-12 音声認識装置 Granted JPS60147797A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59003923A JPS60147797A (ja) 1984-01-12 1984-01-12 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59003923A JPS60147797A (ja) 1984-01-12 1984-01-12 音声認識装置

Publications (2)

Publication Number Publication Date
JPS60147797A JPS60147797A (ja) 1985-08-03
JPH0333280B2 true JPH0333280B2 (ja) 1991-05-16

Family

ID=11570662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59003923A Granted JPS60147797A (ja) 1984-01-12 1984-01-12 音声認識装置

Country Status (1)

Country Link
JP (1) JPS60147797A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3007096B2 (ja) * 1989-05-17 2000-02-07 カシオ計算機株式会社 楽音波形発生装置
JP4876245B2 (ja) * 2006-02-17 2012-02-15 国立大学法人九州大学 子音加工装置、音声情報伝達装置及び子音加工方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728397B2 (ja) * 1986-07-31 1995-03-29 コニカ株式会社 電荷結合素子による撮像装置

Also Published As

Publication number Publication date
JPS60147797A (ja) 1985-08-03

Similar Documents

Publication Publication Date Title
Loizou et al. High-performance alphabet recognition
US6629073B1 (en) Speech recognition method and apparatus utilizing multi-unit models
Franco et al. Adaptive and discriminative modeling for improved mispronunciation detection
US12488805B2 (en) Using optimal articulatory event-types for computer analysis of speech
JPH04362699A (ja) 音声認識方法及び装置
Vuppala et al. Spotting and recognition of consonant-vowel units from continuous speech using accurate detection of vowel onset points
Li et al. Generalized i-vector representation with phonetic tokenizations and tandem features for both text independent and text dependent speaker verification
Bhati et al. Unsupervised segmentation of speech signals using kernel-gram matrices
US12518774B2 (en) Identifying optimal articulatory event-types for computer analysis of speech
Manjunath et al. Articulatory and excitation source features for speech recognition in read, extempore and conversation modes
JPH0333280B2 (ja)
AU2024213722A1 (en) Identifying optimal articulatory event-types for computer analysis of speech
Pradhan et al. Excitation source features for improving the detection of vowel onset and offset points in a speech sequence
Savchenko et al. Optimization of gain in symmetrized itakura-saito discrimination for pronunciation learning
Pandey et al. Keyword spotting in continuous speech using spectral and prosodic information fusion
Raghudathesh et al. Analysis and classification of spoken utterance using feature vector statistics and machine learning algorithms
JP3291073B2 (ja) 音声認識方式
Mary et al. Keyword spotting techniques
JPH0455518B2 (ja)
KR20040100592A (ko) 이동 기기에서의 실시간 화자독립가변어 음성인식 방법
Schnall et al. Comparing speaker independent and speaker adapted classification for word prominence detection
JPS62111295A (ja) 音声認識装置
Al-Maadeed et al. Person-Dependent and Person-Independent Arabic Speech Recognition System
Loizou Robust speaker-independent recognition of a confusable vocabulary
Bhanja et al. Computer and Information Sciences