JPH0119600B2 - - Google Patents

Info

Publication number
JPH0119600B2
JPH0119600B2 JP56048254A JP4825481A JPH0119600B2 JP H0119600 B2 JPH0119600 B2 JP H0119600B2 JP 56048254 A JP56048254 A JP 56048254A JP 4825481 A JP4825481 A JP 4825481A JP H0119600 B2 JPH0119600 B2 JP H0119600B2
Authority
JP
Japan
Prior art keywords
average value
characteristic parameters
spectrum
input
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56048254A
Other languages
English (en)
Other versions
JPS57163300A (en
Inventor
Kyoshi Iwata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56048254A priority Critical patent/JPS57163300A/ja
Publication of JPS57163300A publication Critical patent/JPS57163300A/ja
Publication of JPH0119600B2 publication Critical patent/JPH0119600B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は単語音声認識における大分類方式に関
し、特に単語の音声確識に際して完全照合を行な
う候補数を抽出するためあらかじめ辞書を予備選
択するための単語音声の大分類を作成するものに
関する。
人間の音声単語を認識する単語音声認識装置は
限られた範囲で実用化の段階に近づきつつあり、
約1000程度の単語までの実時間認識装置が市販さ
れる状態にある。
従来の音声単語認識装置は、第1図に示す如
く、音声単語から入力特徴時系列パターンS1、S2
…Snを作成しこれを照合回路3において、あら
かじめ単語辞書2に登録されている単語の標準パ
ターン1′、2′、3′…N′と順次比較して、その最大
類似のものを最大類似度検出回路4により抽出し
てこれを音声入力された単語であると認識してい
る。この場合、入力特徴時系列パターンとして
は、例えば第2図イ,ロに示すように、一定時間
t1、t2…毎に特徴分析されて、例えば周波数分析
されて、特徴パラメータの時系列に変換されたも
のを使用する。この入力時系よりパターンは前記
各標準パターンと順次照合され、各辞書項目につ
いて入力時系列パターンとの類似度の計算が行な
われ、最大類似度を示す辞書項目がその認識結果
として最大類似度検出回路4から出力されること
になる。このとき音声の時系列の長さは一定でな
く、辞書との照合は時間的に非線形な伸縮を伴な
うが、これは、ダイナミツク・プログラミングの
手法により能率よく計算する方法が一般化してい
る。そして照合に要する時間は、辞書2に格納さ
れている標準パターンの数に依存し、標準パター
ン数がN倍になればN倍となる。
それ故、このように辞書2に格納されている全
標準パターンと照合する方式は、格納されている
標準パターンの数が少ないうちはよい。しかしな
がら音声認識の究極目標と予想される音声タイプ
ライターでは数万語の単語が必要であると予想さ
れる。したがつて、このような大語彙の単語音声
認識を前記の如く格納されている全標準パターン
と、照合するという方法で実現する場合には、こ
の照合処理を並列的に実行しなければならず、音
声認識装置の規模が非常に大きくなり、現実的で
はない。
そのために、第3図に示す如く、大分類コード
作成回路5によりこの入力特徴時系列パターン
S1S2…Snを、その大局的または局所的な特徴に
より大分類コードに変換し、このコードに基づき
辞書2に格納されている標準パターンを検索して
全辞書の中から候補辞書項目の予備選択を行な
い、予備選択されたものを候補保持部6にて保持
し、この候補単語P1…Phについて照合回路3に
て入力特徴時系列パターンS1、S2…Snとの照合
を行なうようにする。このようにすれば、入力特
徴時系列パターンS1、S2…Snとの照合は、予備
選択された辞書項目に対して行なわれるので、単
語数が増大しても照合処理に要する時間はそれ程
多くならない。例えば1万単語を認識する場合に
は、これを1/10に候補数が絞られれば、従来の実
用化されている装置とほぼ同程度の速度で認識処
理を行なうことができる。
したがつて本発明はこのように、辞書を予備選
択できる大分類コードを作成する単語音声認識に
おける大分類作成方式の提供を目的とするもので
ある。そしてこのために本発明の単語音声認識に
おける大分類方式では、入力音声信号にもとづき
特徴パラメータを抽出する特徴パラメータ抽出手
段と、入力音声信号にもとづきそのスペクトル分
析を行なうスペクトル分析手段と、このスペクト
ルの時間的変化状態を検出するスペクトル時間変
化検出手段と、このスペクトル時間変化にもとづ
き前記特徴パラメータを区分しこの区分内の特徴
パラメータの平均値を求める平均値作成手抜と、
この特徴パラメータの平均値にもとづきクラスタ
リングを行なうクラスタ手段を設け、入力音声信
号に基づき大分類コードを作成するようにしたこ
とを特徴とする。
以下本発明における大分類方式を第4図ないし
第8図にもとづき説明する。
(1) 入力音声波形を、例えばフイルタバンクまた
はLPC分析によるスペクトル包絡抽出により、
第2図イ,ロに示す如く、一定時間おきに周波
数スペクトルを得、これにより第4図イに示す
如く、周波数スペクトルの時系列パターンを作
成する。
(2) この第4図イの周波数スペクトルの時系列パ
ターンに、第5図イに示すm×nのマスクM
(ここでは3×3)を使用して次のようなマス
ク走査を行ない、周波数スペクトルの時間変動
の大きい部分を第4図ハに示すように抽出す
る。
すなわち、第5図イに示すマスクMを使用し
て第4図イに示す周波数スペクトルの時系列パ
ターンを走査するが、このとき第5図イ,ロに
示すようにエレメントS1、S2、S3を正とし、エ
レメントS7、S8、S9を負としてマスク演算を行
ない、その絶対値をエレメントS5の値a0とする
マスク演算を行なう。
a0=|(S1+S2+S3)−(S7+S8+S9)| このようにして第4図ロに示す如く、マスク
演算テーブルMTが得られる。そして次にこの
マスク演算テーブルMTにおいて、各フレー
ム、すなわちサンプルタイムt2、t3−における
測定値に対するマスク演算値が別に設定された
閾値athより大きい個数が何個存在するかとい
うことを抽出して、第4図ハに示す如く、変動
テーブルPを得、このピーク数Piの値(第4図
ハではP2、P3、P4…)をそのフレームでのス
ペクトル変動の度合の強さと定義する。そして
ピーク数にもとづき、第6図に示す如く、その
スペクトル変動の状態を示すピーク数Piの時系
列パラメータを求める。
(3) この第6図に示す、スペクトル変動の状態を
示すピーク数Piの時系列パラメータによりピー
ク ′P1、 ′P2、 ′P3、 ′P4…を検出して、別
に設けられた閾値Pthより大きいもの(第6図
では ′P1、 ′P3、 ′P4…)を抽出し、これを
後述する入力音声の区切り候補とする。そして
この時点での音声の区分候補は、通常の音素レ
ベルよりも多目に出現するように閾値pthを設
定する。
(4) また最初に入力された入力音声波形にもとづ
き特徴パラメータを求めておく。この特徴パラ
メータとしては、例えば各フレームt1、t2…の
パワーや周波数スペクトルが使用できる。そし
てこの周波数スペクトルを使用する場合には、
前記(1)の周波数スペクトルを使用することがで
きる。
(5) 次にこの特徴パラメータの平均値を求める。
いま特徴パラメータとして周波数スペクトルを
使用したときの平均値の求め方を次に説明する
まず上記(3)で求めた入力音声の区切り候補 ′
P1、 ′P3、 ′P4…の時刻t3、tg、tk…で、第4
図イの周波数スペクトルの時系列パターンを区
切る。そしてこの区切り間を区分時系列と定義
する。すなわち、第4図イにおいて、t3、tg、
tk…でこれを区分し、各区分内においてそれぞ
れの周波数成分の平均値を求める。すなわち区
分t3〜tg間では周波数f1の平均値f101を f101=S31+S41+…Sg-1

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声信号にもとづき特徴パラメータを抽
    出する特徴パラメータ抽出手段と、入力音声信号
    にもとづきそのスペクトル分析を行なうスペクト
    ル分析手段と、このスペクトルの時間的変化状態
    を検出するスペクトル時間変化検出手段と、この
    スペクトル時間変化にもとづき前記特徴パラメー
    タを区分しこの区分内の特徴パラメータの平均値
    を求める平均値作成手段と、この特徴パラメータ
    の平均値にもとづきクラスタリングを行なうクラ
    スタ手段を設け、入力音声信号に基づき大分類コ
    ードを作成するようにしたことを特徴とする単語
    音声認識における大分類方式。
JP56048254A 1981-03-31 1981-03-31 Large sorting system for word voice recognition Granted JPS57163300A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56048254A JPS57163300A (en) 1981-03-31 1981-03-31 Large sorting system for word voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56048254A JPS57163300A (en) 1981-03-31 1981-03-31 Large sorting system for word voice recognition

Publications (2)

Publication Number Publication Date
JPS57163300A JPS57163300A (en) 1982-10-07
JPH0119600B2 true JPH0119600B2 (ja) 1989-04-12

Family

ID=12798301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56048254A Granted JPS57163300A (en) 1981-03-31 1981-03-31 Large sorting system for word voice recognition

Country Status (1)

Country Link
JP (1) JPS57163300A (ja)

Also Published As

Publication number Publication date
JPS57163300A (en) 1982-10-07

Similar Documents

Publication Publication Date Title
US3770892A (en) Connected word recognition system
US6178396B1 (en) Word/phrase classification processing method and apparatus
JP2739950B2 (ja) パターン認識装置
EP0319140B1 (en) Speech recognition
CN112151014B (zh) 语音识别结果的测评方法、装置、设备及存储介质
CN112466287B (zh) 一种语音分割方法、装置以及计算机可读存储介质
JPH0352640B2 (ja)
CN113920986A (zh) 会议记录生成方法、装置、设备及存储介质
CN112231440A (zh) 一种基于人工智能的语音搜索方法
Birla A robust unsupervised pattern discovery and clustering of speech signals
EP0200347B1 (en) Knowledge-guided automatic speech recognition apparatus and method
US4885791A (en) Apparatus for speech recognition
EP0430615A2 (en) Speech recognition system
CN120126197A (zh) 一种基于人工智能的情绪分析方法及系统
EP0109140B1 (en) Recognition of continuous speech
JPH0119600B2 (ja)
JPS6129518B2 (ja)
CN116612746B (zh) 一种基于人工智能在声学库中进行语音编码识别方法
KR100269429B1 (ko) 음성 인식시 천이 구간의 음성 식별 방법
JP2660998B2 (ja) 日本語処理装置
JP2655637B2 (ja) 音声パターン照合方式
JPS6155680B2 (ja)
JPS59189397A (ja) 音声認識処理方式
CN117476000A (zh) 一种语音识别效果的优化方法及系统
JPH0451840B2 (ja)