JPH0458635B2 - - Google Patents

Info

Publication number
JPH0458635B2
JPH0458635B2 JP61121870A JP12187086A JPH0458635B2 JP H0458635 B2 JPH0458635 B2 JP H0458635B2 JP 61121870 A JP61121870 A JP 61121870A JP 12187086 A JP12187086 A JP 12187086A JP H0458635 B2 JPH0458635 B2 JP H0458635B2
Authority
JP
Japan
Prior art keywords
phoneme
word
boundary
input
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP61121870A
Other languages
English (en)
Other versions
JPS62278597A (ja
Inventor
Shin Kamya
Atsuo Tanaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61121870A priority Critical patent/JPS62278597A/ja
Publication of JPS62278597A publication Critical patent/JPS62278597A/ja
Publication of JPH0458635B2 publication Critical patent/JPH0458635B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
〔産業上の利用分野〕 本発明は音声認識装置における音素標準パター
ンの切り出し方法に関する。 〔従来の技術〕 音声認識は、音声を音響分析してその中に含ま
れる言語的特徴を抽出し、これにより音声に対応
する言語記号の表示に変換する処理であり、原理
的には2種類の方法が知られている。すなわち、
その一つは音声に含まれる言語的特徴に関する標
準パターンを予め記憶しておき、この標準パター
ンと音声入力とを比較して類似性を調べ、その類
似性に基づいて入力された音声入力が標準パター
ンと一致とするかどうかの認識判定を行う方法で
ある。もう一つの方法は、上記の標準パターンを
使うことなく、音声入力の音響分析結果に基づい
て、音素記号の二者択一的な判定を繰り返し行
い、最終的に言語としての認識判定を行う方法で
ある。 上記2つの方法では、一般に標準パターンを用
いる前者の方法が認識結果が良好であり、たとえ
ば、第8図に示す方法により音声入力の単語認識
が行われている。 第8図において、入力された音声入力の周波数
スペクトラム包絡と、相関分析等による駆動音源
の2つの音響的特徴で音響分析された後、予め作
成された音素標準パターンにより音素認識が行わ
れる。この音素認識においては、入力された上記
音響的特徴が音素記号の系列で表され、この音素
記号の系列を予め作成された単語辞書により単語
認識を行い、認識された単語がその単語の言語記
号の形で出力される。 〔発明が解決しようとする問題点〕 上述のように、連続音声認識において音素を認
識の基本単位として用いる場合、予め音素標準パ
ターンを登録用単語音声から切り出す必要があ
り、この音素の切り出しは、従来音声情報処理の
熟練者が視察にて行つていたために、切り出し時
間が長くかかり非常に不便であつた。 〔発明の目的〕 本発明の目的は以上の問題点を解決し、単語音
声から音素標準パターンを人手を介することなく
機械的にかつ迅速に切り出すことができる音素標
準パターンの切り出し方法を提供することにあ
る。 〔発明の構成〕 本発明は、予め複数の話者が発声した単語毎に
音素境界記号を節とする複数の遷移路を有する単
語ネツトワークを記憶手段に記憶する一方、入力
された単語音声の音素境界記号列及び音声分析の
パラメータ系列を抽出し、上記入力された単語音
声の音素境界記号列が上記記憶手段に記憶された
単語ネツトワークのうちの少なくとも1つの遷移
路と一致したとき、上記パラメータ系列を音声認
識を行うための音素標準パターンとして切り出す
ことを特徴とする。 〔実施例〕 第1図は本発明の一実施例である音素標準パタ
ーン切り出し装置のブロツク図であり、本発明は
登録用単語音声から音素標準パターンを切り出す
際にパワー変化及びスペクトル変化等から検出さ
れる音素境界記号を節とする単語ネツトワークを
用いることを特徴とする。 第1図において、まず登録用単語音声X(t)は音
声分析部1に入力され、その音声入力X(t)から、
自己相関係数R(t)及びその変化R′(t)、パワーP
(t)及びその変化P′(t)、並びにケプストラム係数c
(t)が計算される。ここで、音声入力のフレーム周
期を例えば8msecとし、上記tは音声入力のt
番めのフレームを表す。 第2図は第1図の音声分析部1のブロツク図で
あり、第2図において、まず登録用単語音声入力
X(t)は標本化回路11に入力されて、所定の標本
化周波数で標本化され、標本化値S(t)が自己相関
係数計算部12及びパワー計算部13に出力され
る。本実施例の標本化回路11では、1フレーム
あたり256回の標本化を行い、以下、個々の標本
化値を、 S(t)i,1≦i≦256 ……(1) と表す。 自己相関係数計算部12において、入力された
標本化値S(t)から、分析次数np=24として第3
図の処理フローに基づいて次式の自己相関係数R
(t)iが計算された後、線形予測係数計算部14及
び音韻分類部2に出力される。 R(t)i=1/256256-ik=1 S(t)k ・S(t)k+i,1≦i≦24 ……(2) ここで添字iは自己相関係数R(t)の次数を表
し、以下において記述される線形予測分析整数A
(t)i及びケプストラム係数c(t)iの各添字iも次
数を表す。 第3図のフローチヤートにおいて、S(I)は
上記標本化値S(t)iを表し、R(I)は上記自己
相関係数をR(t)iを表わす。 線形予測係数計算部14において、入力された
自己相関係数R(t)iから、公知の線形予測分析法
により第4図の処理フローに基づいて線形予測分
析係数A(t)iが算出された後、ケプストラム係数
計算部15に出力される。ケプストラム係数計算
部15においては、入力された線形予測分析係数
A(t)iから次式によりケプストラム係数c(t)iが
算出され、音素切り出し部4及びケプストラム変
化計算部16に出力される。 c(t)i=−A(t)i−1/ii-1k=1 k・c(t)k・A(t)i−k,1≦i≦24 ……(3) ただし、(3)式において、1次のケプストラム係数
c(t)1は次式で表わされる。 c(t)1=−A(t)1 ……(4) さらに、ケプストラム変化計算部16におい
て、入力されたケプストラム係数c(t)iから次式
に基づいてケプストラム係数の変化c′(t)iを算出
し、音素境界検出部3に出力される。 c′(t)i=|c(t−4)i−c(t)i| ……(5) 一方、パワー計算部13において、入力された
標本化値S(t)iから次式に基づいてパワーP(t)が
算出された後、音韻分類部2及びパワー変化計算
部17に出力される。 P(t)=1/256256i=1 |S(t)i|2 ……(6) 次に、パワー変化計算部17において、入力さ
れたパワーP(t)から次式に基づいてパワーの変化
P′(t)を算出し、音声境界検出部3に出力される。 P′(t)=7j=1 (j−4)・P(t−7+j) ……(7) 第5図は、第1図の音韻分類部2において音韻
分類する際の領域表であり、横軸Xは、−log(1
−R(t)1)であり、縦軸Yは、logP(t)である。こ
こで、R(t)1は前述の通りt番目のフレームの1
次の自己相関係数である。 第5図において、Yが所定の境界値Y1未満の
領域においては、無音部(・)である。またYが
所定境界値Y1以上かつ所定の境界値Y2以下であ
る領域であつて、Xが所定の境界値X1未満の領
域では無声部(F)、Xが所定の境界値X1以上かつ
所定の境界値X2以下の領域では母音部(V)、Xが
所定の境界値X2を越える領域では鼻音部(N)であ
る。 さらに、YがY2を越える領域であつて、 Y<−m1(X−X1)+Y2 ……(8) なる領域は無声部(F)であり、 Y≧−m1(X−X1)+Y2 ……(9) であつてかつ Y≧m2(X−X2)+Y2 ……(10) なる領域は母音部(V)であり、 Y<m2(X−X2)+Y2 ……(11) なる領域は鼻音部(N)である。ここで、m1及びm2
は正の所定値である。 音韻分類部2においては、入力されたパワーP
(t)及び自己相関係数R(t)から、第5図に基づき音
声入力の各フレームの大略的特徴を音韻分類記号
ph(t)の形で音素境界検出部3に出力する。なお、
出力される音韻分類記号ph(t)とそれが表すべき
性質を第1表に示す。 次に、音素境界検出部3では、入力されたパワ
ーの変化P′(t)、ケプストラム係数の変化C′(t)i及
び音韻分類記号ph(t)から、第2表の条件に基づ
いて、第2表の音素境界番号bd(t)が検出され、
音素切り出し部4に出力される。なお、第2表に
おいて、T1、T2及びT3は所定のしきい値であ
る。この音素境界検出部3において、もし境界番
号の間隔が所定のしきい値T4フレーム以内であ
るならば、次式に示す優先度の高い音素境界番号
bd(t)が出力される。 優先度が高い>>>>>優先度が低い……
(12) 第6図は、3名の話者が「あさひ」と発声した
ときの、音韻分類記号列ph(t)と境界番号列bd(t)
の例を示した図である。前述のように、1個の単
語区間は、境界記号から始まり境界記号で終
わる境界記号列bd(t)で記述できる。第6図の境
界記号列bd(t)を、境界記号をノード(節)とす
る単語ネツトワークで表現すると第7図のように
なる。ただしノード間の枝にその区間に存在する
音素を、ノードの上に通し番号を示す。なお、第
7図において示されるように、複数の話者によつ
て作成された1個の単語に対する単語ネツトワー
クにおいては、話者によつて境界記号列bd(t)が
異なるため複数の遷移路が存在する。 第1図において、5は単語ネツトワーク表
(ROM)であり、予め多数の話者が発声した音
素切り出し用単語の音声データを分析して、単語
毎に第7図のような単語ネツトワークを作成し、
単語ネツトワーク表(ROM)5に書き込んでお
く。このネツトワークをメモリ(ROM)上に記
憶させるために第3表の例のようなリスト表現を
用い、第3表に示すように1本の枝を6ワードの
ノード情報で表現する。ノード情報の各ワードの
意味を第3表に、各枝における音素の切り出し位
置とその記号を第4表に示す。 なお、第3表において、分岐条件(最短)とは
分岐条件を満たす境界記号が来るまでのフレーム
間隔の最小値であり、分岐条件(最長)とは分岐
条件を満たす境界記号が来るまでのフレーム間隔
の最大値である。 第3表の例においては、境界記号が、5フレ
ーム以上15フレーム以内に来れば、ノード番号4
に分岐し現在のノードと分岐先のノードを結ぶ区
間の中央のフレームにおけるケプストラム係数c
(t)を音素/a/の標準パターンとして切り出すこ
とを意味する。 音素切り出し部4では、音素切り出し用単語毎
に対応する単語ネツトワークを単語ネツトワーク
表(ROM)5より読み出すとともに、登録用音
声入力を分析した結果音素境界検出部3から出力
される境界記号列bd(t)が入力される。まず、最
初のノードである境界記号から出発して、ノー
ド情報内の分岐条件を満たせば、音素切り出し部
に設けられたポインタを次のノードに遷移させ、
この動作を繰り返す。 入力された境界記号列bd(t)に基づいて、上記
ポインタが単語ネツトワーク表(ROM)5に記
憶された単語ネツトワークに従つて遷移し、単語
の終端を表す境界記号まで遷移することができ
た時のみ、音素の区分に成功したと見なして、単
語ネツトワーク表(ROM)5に書き込まれたノ
ード情報の切り出し位置t0に対するフレームにお
けるケプストラム係数c(t0)を各音素毎に切り
出し、その係数c(t0)を音素の標準パターンと
して音素標準パターン表(RAM)6にストアす
る。 以上説明したように、予め多数の話者が発声し
た音素切り出し用単語の音声データを分析して、
音素境界記号をノードした第7図に示すような単
語ネツトワークを、各ノード間の枝を6ワードで
表わした第3表のノード情報の形で単語ネツトワ
ーク表(ROM)5に書き込んでおき、登録用音
声入力X(t)から分析された境界記号列bd(t)と単
語ネツトワーク表(ROM)5に書き込まれた単
語ネツトワークとを照合して、一致した遷移路が
ある場合、音素の区分に成功したと判断し単語ネ
ツトワーク表(ROM)5に書き込まれたノード
情報の切り出し位置t0に対応するフレームにおけ
るケプストラム係数c(t0)を各音素毎に音素標
準パターンとして切り出すことができる。
【表】
【表】
【表】
【表】
〔発明の効果〕
以上詳述したように、予め複数の話者が発声し
単語発声を分析して単語毎に音素境界記号を節と
する複数の遷移路を有する単語ネツトワークを記
憶手段に記憶しておき、入力された単語発声を分
析して音素境界記号列及び音声分析のパラメータ
系列を出力させ、上記入力音素境界記号列が上記
記憶手段に記憶された単語ネツトワークのうちの
少なくとも1つの遷移路と一致したとき、上記パ
ラメータ系列を音声認識を行うための音素の標準
パターンとして切り出すことができるので、人手
を介することなく機械的にかつ迅速に単語音声か
ら音素標準パターンの切り出すことができる。
【図面の簡単な説明】
第1図は本発明の一実施例である音素標準パタ
ーンの切り出し装置のブロツク図、第2図は第1
図の音声分析部のブロツク図、第3図は第2図の
自己相関係数計算部の処理を示すフローチヤー
ト、第4図は第2図の線形予測分析係数計算部の
処理を示すフローチヤート、第5図は第1図の音
韻分類部における分類の領域を示す図、第6図は
3名の話者が「あさひ」と発声したときの音韻分
類記号列と境界番号列を示した図、第7図は第6
図の境界記号列を境界記号をノードとして表現さ
れた単語ネツトワークを示す図、第8図は従来例
の音声認識方法を示すブロツク図である。

Claims (1)

  1. 【特許請求の範囲】 1 予め複数の話者が発声した単語毎に音素境界
    記号を節とする複数の遷移路を有する単語ネツト
    ワークを記憶手段に記憶する一方、 入力された単語音声の音素境界記号列及び音声
    分析のパラメータ系列を抽出し、 上記入力された単語音声の音素境界記号列が上
    記記憶手段に記憶された単語ネツトワークのうち
    の少なくとも1つの遷移路と一致したとき、上記
    パラメータ系列を音声認識を行うための音素標準
    パターンとして切り出すことを特徴とする音素標
    準パターンの切り出し方法。
JP61121870A 1986-05-26 1986-05-26 音素標準パタ−ンの切り出し方法 Granted JPS62278597A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61121870A JPS62278597A (ja) 1986-05-26 1986-05-26 音素標準パタ−ンの切り出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61121870A JPS62278597A (ja) 1986-05-26 1986-05-26 音素標準パタ−ンの切り出し方法

Publications (2)

Publication Number Publication Date
JPS62278597A JPS62278597A (ja) 1987-12-03
JPH0458635B2 true JPH0458635B2 (ja) 1992-09-18

Family

ID=14821966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61121870A Granted JPS62278597A (ja) 1986-05-26 1986-05-26 音素標準パタ−ンの切り出し方法

Country Status (1)

Country Link
JP (1) JPS62278597A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5356210A (en) * 1991-03-16 1994-10-18 Alfred Teves Gmbh Anti-lock hydraulic brake system

Also Published As

Publication number Publication date
JPS62278597A (ja) 1987-12-03

Similar Documents

Publication Publication Date Title
JP3716870B2 (ja) 音声認識装置および音声認識方法
JP2005043666A (ja) 音声認識装置
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
JP7098587B2 (ja) 情報処理装置、キーワード検出装置、情報処理方法およびプログラム
JP2955297B2 (ja) 音声認識システム
JP2004325635A (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
KR20040061070A (ko) 음성인식시스템에서의 음성인식장치 및 그 방법
JP3444108B2 (ja) 音声認識装置
JP4950024B2 (ja) 会話システムおよび会話ソフトウェア
JP3493849B2 (ja) 音声認識装置
JPH0458635B2 (ja)
JP4226273B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
KR100981540B1 (ko) 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법
JP2010072446A (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
Jalalvand et al. A classifier combination approach for Farsi accents recognition
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
Córdoba et al. PPRLM Optimization for Language Identification in Air Traffic Control Tasks
Roy et al. Bangla Speech Denoising and Identification using Deep Neural Network
JP3357752B2 (ja) パターンマッチング装置
JP3231365B2 (ja) 音声認識装置
JPH0534679B2 (ja)