JPS5962899A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPS5962899A
JPS5962899A JP57173177A JP17317782A JPS5962899A JP S5962899 A JPS5962899 A JP S5962899A JP 57173177 A JP57173177 A JP 57173177A JP 17317782 A JP17317782 A JP 17317782A JP S5962899 A JPS5962899 A JP S5962899A
Authority
JP
Japan
Prior art keywords
voice
speech
input
recognition
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57173177A
Other languages
English (en)
Inventor
徳子 松井
俊宏 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP57173177A priority Critical patent/JPS5962899A/ja
Publication of JPS5962899A publication Critical patent/JPS5962899A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 不発明d1、あらかじめ用意された複数組の標準旨パ・
バク/について入力音声に対する類似度が最上位のもの
を刊ボ・出力する音声認識装置において、入力)イ声の
各単語内の音声休止の状態を識別し、それに適合した標
準M声パタンを選択して認識処理を行い、そのN5 n
h率を同上させるだめの音声認識方式に関するものであ
る。
〔従来技術〕
この種のば声認識装置における従来の汁声認識方テ(d
l、一般に、用意されているずへての、または前もって
決定しうる特7岨イ屯囲(独)、+1)の全標準1;i
声バタノを選択して入力音声とのバタノマノチノクをし
、その類似度を求めて当該入力音声の単語について認識
処理をイーjうようにしていた。
しかしながら、それではバタンマツチング処理をずべき
標準音声バタノ数が多いので、特定光声者斗だば/r!
f定単語相互+i4J等において、ある程度の誤認識を
避けることができず、認識率も通常の一定限度以」二に
上げることが困難であった。
〔発明の目的〕
本発明9目的は、」−二記したurb来技術の欠点をな
くシ、入力音声の各単語内の音声休止の状態を識別し、
それに適合した標準音声バタンを選択して認識α埋を行
うことにより、その認識率を通常の極限以上に向上する
ことができる音声認識方式を提供することにある。
〔発明の1既−要〕 本発明に係る音声Fig i1i!t;方式の信成は、
認識対象の各単語・文に対応し2て谷復数組の標準音声
バタンデータを記憶しておき、人力音声の特徴抽出を行
い、その特徴データと上ハ己(票−(φ音声バタンデー
タとのバタンマツチング処理を行い、その類似度が最−
4−位となるものを認識結果として判定・出力するI・
成畦を有する音声認識装置において、人力音声の′lf
徴抽高抽出うとともに、その音声パワーを検出し、入力
音声の各単語の音声区間について、犀語内の音声休止と
認められるべき状態の有無を識別し、それに基づいて対
応する単語にlVjする標準d?パタンを選択し、当該
音声認iii!’:処理を行わしめるように1tlJ 
1ml・処理ず□ものである。
なお、単語内に音声休止がイア在するときには、その回
数を割数しでおき、これにX1応する単語りtl関する
。漂辛昌声バタノを洒択して当、J、音声3g識処理を
行うことにより、更に1iiij ii++にイ環の1
・り上を図ることができ名。
ここで、以」−を詳述ずれは次のとおりである。
まず、第1図の連続発声式字に対する音声パワーの一例
の波形図に示すように、周囲M ’8’ +回線雑音前
のレベルを考慮した上で、入力音声が存在するものと認
めうる音声パワーの最低値(閾値)1)T I+を設定
しておく。
この閾11tiP T I+よりも低いレベルの音声パ
ワーの各i1J a li#間を′1゛とし、その下限
1直の所ノセ1直をl\、上I沢イ回のハ1定1直を1
3とすれは、以下°の条汀に(Klってfjj詔同、単
語内(第1図では、数字”l−2°゛間、数字II I
II内)の音声入力の休止区間およびM声入力の終了の
識別をすることができる。ずなわち、次の粂1牛(1)
〜(3)により、(1)T≦Aのとさケよ、同−単語内
の音声休止(単語内ポーズ)、 (2)  A < ’II’≦Bのときdl、各単語間
の音声休止(単語間ボース)、 (3J  T > 8のときは、音声入力の終了、とし
て判定をすることができ、上M+J(+)の条件が生ず
る回数から当該音声入力の各単語内の音声休止回数を決
尾することができる。
なお、上記各所定時間値A、Bは、認識対象の単iiN
・文について経験的、実験的に最適値が求められて設定
されるものである。
〔発明の実施例〕
以下、本発明の実施例を図に基づいて説明する。
第2図は、本発明に係る音声認識方式の一英怖例の方式
11へ成図、第3図tよ、その処理フローチャートであ
る。
ここで、■は、音−声人力に1糸るマイクロフォン、2
は、入力音声信号について新人ピの利得調整・帯(或制
限を行った後、そのディジタル変挨をする入力部、3は
、人力されたティ/タル音声信号から入力音声の・特徴
データを抽出する分析部、4は、入力音声の音声区間の
゛演出処理をして独立しだr、11語(数字)を判定す
る1音声区間検出部、5は、入力音声と標準音声パタン
とのバタンマツチング処理を行う音声認識部、6は、そ
のバタンマツチ/り処理(類1以度言1算処理)の結果
により、入力B声に対する類似度か最上位の組を判定す
る判定j?lj、7は、認識対象の各単語・文(複数単
語の集合、すなわち単語列)について各複数組の標準音
声バタンデータを格納(記憶)している標準音声バタン
メモリ、8は、その選択制g+1をする標準音声バタン
選択部、9は、認識結果表示、音声入力指示に係る音声
合成部、1oは、同スピーカ、11は、認識結果の確認
および繰返し音−声入力指示に係るコンソール部、12
は、上記各部に対する制旬(jその他所要の処理を行う
制jil1部、13は、認識結果に基づいて所望のザー
ビス処理を行うホス]・装置である。
1ず、音声認識処理に先立ち、制御部12は、音声入力
に削する準備を人力部27分析部3.音声区jHノ・炭
田部4.叶声認識部5へ指示するとともに、発声者に対
して音声入力を促すべき入力催告メツセージを出力する
よう音声合成部9に指示し、それをスピーカ10から放
声ぜしめる(第3図の処理21)。
こ龜れにより、発声者がマイクロフォン1から所望の音
声を入力する(開始1!l 22 )。
入力部2d:、入力酔声イぎ号のティジタル変換した改
、そのゲイジタル悟号を分析部3へ広り、分析部3は、
その分析ケして’h徴データを抽出するとともに、その
g小パワー情報を名声区間瑛出部4へ送る(同処理23
)。
rX声ハト灰出部4は、前述のように、′fr単語の1
イ声区間について、あらかしめ定められたB小パワーの
閾1’:ij、 P T Itより低いパワーの継続す
る区間の時間長′1゛から、その1イ声休止後能を識別
する。
すなわち、音声区間演出部4は、単語内ポーズを炭山す
ることに単語内ボース発生情報を、訃だけ当該単語の音
声区間の終了の際に全単語内ボーズ回数情¥1徒を開側
j部12へ伝える。
fjilJ !itイノr、fl≦12に1その清報に
より、前述の条件(1)を満足する回数をカランI−L
 (1) ニー1) −1−1)、これを上記時間長T
が所定時1川長Bを超える時か到来する寸で行い(人力
終了を識別して)、各単語中の音声休止の回数を求める
(同処理24)。
なお、丙11敗発声(4−語ことに区切っての発声)の
場合には、上記時間長゛1′か上記所だ値l\を超えた
ときに処理24を終るようにすれはよい。
単語寸だ(は文についての終端が逆出されてもツノ1り
/り値1) −〇である場合には開面H1j 12は、
人力片声中に単詔内ボースのある単語が含1れていない
ものと判定し、標準音声パタン逃択部8に対し、休止の
ある単語の標準音声バタンを除くように指示する(同処
理25)。
まだ、上記カウンタ値p〜0の場合には、単語内ポーズ
のある単語に関する標準音声バタンのみを選択するよう
にする。なお、この場合において、単語内ボーズが存在
するというだけではなく、その回教(=p)に応じて対
応する単語に閂−J−る酵準音j!:ハタノを選択する
ようにするこ占ができ、これによって更に認識率を向上
させることができる。
次に、音声認識部5は、その標準音声バタンと入力音声
との間でバタンマツチング処理を行い、入力音声に対す
る各組の標準音声バタンの類似度を判定部6へ伝える(
同処理26)。
判定部6d2、類似度の中で最上位の(最も確からしい
)組の標準音声バタンを認識結果としてili制御部1
2へ伝える(同処理27)。
入力音声に対して最も確からしい類似度の値が低くそれ
を認識結果として出力するのは疑わしいとすべきリジェ
クトの場合には、制御部12は、標準音声バタン選択部
8に対して今までと同一のバタンを選択するように指示
するとともに(同処理30)、音声合成部9に対して発
声者の丙発声を促すメッセー ジを出力するように指示
する(同処理31)。
ま/こ、リジェクトではない場合には、制御部■2で、
認識結果か正しいものであるか否かを発声者に確認させ
るだめの表示として、認識要求メツ十−・/を音声台ノ
戊部9から出力させ、それをスピーカ10から放声さぜ
る(同処理28)。なお、上記表示はコンソール部11
におけるランプ表示等によってもよい。
発声者は、これを聴取して、人力音声〃・正しく認識さ
れ/このか、誤認識されたのかを知り、その旨をコンソ
ール部IIから制イ卸部12へ入力する(同処理29)
、。
!1ill 1I)It ’R11]、 2への認識結
果の正否の確認入力Qよ、必すしもコンノー、ル部11
における操作による必要C」二なく、マイクロフォン1
からの硫化、用計声の人力によってもよいが、その内容
に、ば声認識力曜ず実に行われるように簡単でμ4HE
 fij!kをしにくいものであることが望ましい。
11iIIIIl」1部12は、−に記確認情報により
、−1−1ボの認識1鍵補が正しいものであるときは、
それを認識結果としてポスト装置13へ送出し、1つの
入力音声に対する処理を終了せしめて次の入力に1ii
fiえるっ一方、誤認識であったという確認情報を受け
だときには、制御f(]部12は、リジェクトの場合と
同様に標準音声パタ/選択部8に対して今寸でと回−の
け準は声パタンを選択するよう指示するとともに(開始
r17!30 ) 、内入力の催告メツセージを出力す
るよう音声合成部9に指示する(同処理31)。
以上の動作を正しい詔晶(7請果が得られる寸で繰り返
j〜で行い、正しい認識結果が得られたときにC」1、
それを上述のこと〈ポスト装置13へlA出して)・四
」ルを終了する。
このようにして、標7¥2富声パタ/の選択範囲を狭め
て中6a内ボースに関する情報をイ:]加し、狩J似度
を求めて認識処IIl!を・行うので、特に単語内ポー
ズのある中、詔、 ない!枦d11出]のh呉を忍i哉
がなくなり、認識率を従来極限と考えられていだ値以上
に向」〕させることかてきるっ 〔)色間の効果〕 す、上、詳絹1に説明したように、本発明によれは、入
力音声の各単語内のd小休止状態を識別し、それに適合
し/こ標iV4高声パタ/によってtd識処理を行うこ
とかできるので、その認識率を通常の極限以」−に向」
二することができ、この種の音声認識゛/スデムにおけ
る′Alj用・1・α囲の拡大および信頼性、サーヒス
性、効率の向」二に顕著な効果か何られる。
【図面の簡単な説明】
第1図は、連続発声数字に対する音声・ζワーの一例の
波形図、第2図は、本発明に係る音声認識方式の一実測
例の方式1p)成図1.第3図は、同処理ノロ−チャー
I・である。 】 ・マイクロフォン、2・・・人力部、3・・・分析
部、4・・音−ハト間侠出部、5・・・ば声認識部、6
・・・刊に部、7 ・標準音声パフ/メモリ、8・・・
標準音声・2タノ選択H−1s 、  9・・・B声合
成部、10  ・スピーカ、11・・コノノール7”3
、]、 2・・・jlill 1ff41 tf15 
、’ ”  ・、1ミスト装置。 代理人 j(埋土 福H]幸作 (ほか1名) 茅 l 躬 T≦A  4く7区8              1
ン ε茅2 図

Claims (1)

  1. 【特許請求の範囲】 1゜認識対象の各単語・文に対応して各複数組の標準音
    声バタンデータを記・億しておき、入力音声の特徴抽出
    を行い、その%徴テークと上記標・■音4tバタンテー
    タとのバタンマツチング処理を行い、その頑似度が最−
    」−位となるものを認識結果として判定・出力する1幾
    能を有する音声認識装置において、入力音声の特徴抽出
    を行うとともに、その音声パワーを険出し、人力音声の
    各噴詔の昔ハト同について、即に8内の音声休止と認め
    られるへき状態の有無を識別し、それに基ついて対応す
    る中詰に関する標・−rjt等汐パタバタ〕態択し、当
    該音声認識処矧1を行わしめるようにjlil、l j
    +llI・処理することを特徴とするば声認識方式。 2、特許請求の範囲第1項記載のものにおいて、入力音
    声の単招内に阿声休止か存在するときは、その回数を割
    数しておき、これに対応する単語に関する標準音声パタ
    /を童択して当該音声で、鐵処理を行うようにしだ音声
    認識方式。
JP57173177A 1982-10-04 1982-10-04 音声認識方式 Pending JPS5962899A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57173177A JPS5962899A (ja) 1982-10-04 1982-10-04 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57173177A JPS5962899A (ja) 1982-10-04 1982-10-04 音声認識方式

Publications (1)

Publication Number Publication Date
JPS5962899A true JPS5962899A (ja) 1984-04-10

Family

ID=15955513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57173177A Pending JPS5962899A (ja) 1982-10-04 1982-10-04 音声認識方式

Country Status (1)

Country Link
JP (1) JPS5962899A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61138298A (ja) * 1984-12-11 1986-06-25 松下電器産業株式会社 音声認識装置
JPS61126300U (ja) * 1985-01-25 1986-08-08
JPS62141598A (ja) * 1985-12-16 1987-06-25 日本電気株式会社 音声認識方式
JPS63173099A (ja) * 1987-01-13 1988-07-16 松下通信工業株式会社 音声認識装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61138298A (ja) * 1984-12-11 1986-06-25 松下電器産業株式会社 音声認識装置
JPS61126300U (ja) * 1985-01-25 1986-08-08
JPS62141598A (ja) * 1985-12-16 1987-06-25 日本電気株式会社 音声認識方式
JPS63173099A (ja) * 1987-01-13 1988-07-16 松下通信工業株式会社 音声認識装置

Similar Documents

Publication Publication Date Title
Gold et al. Speech and audio signal processing: processing and perception of speech and music
JP3282075B2 (ja) 連続音声認識において句読点を自動的に生成する装置および方法
Gow Jr et al. Lexical and prelexical influences on word segmentation: evidence from priming.
CN110148402B (zh) 语音处理方法、装置、计算机设备及存储介质
US6990443B1 (en) Method and apparatus for classifying signals method and apparatus for generating descriptors and method and apparatus for retrieving signals
CN110689895B (zh) 语音校验方法、装置、电子设备及可读存储介质
JPS6147440B2 (ja)
Frankish Auditory short-term memory and the perception of speech
JP5017534B2 (ja) 飲酒状態判定装置及び飲酒状態判定方法
JPWO2005119650A1 (ja) 音声合成装置
JP2019124952A (ja) 情報処理装置、情報処理方法、およびプログラム
KR20170073113A (ko) 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
CN110992984B (zh) 音频处理方法及装置、存储介质
KR20180057970A (ko) 음성감성 인식 장치 및 방법
CN108573713B (zh) 语音识别装置、语音识别方法以及存储介质
JPS5962899A (ja) 音声認識方式
CN112235183B (zh) 通信消息处理方法、设备及即时通信客户端
Sridhar et al. A hybrid approach for Discourse Segment Detection in the automatic subtitle generation of computer science lecture videos
Lertwongkhanakool et al. An automatic real-time synchronization of live speech with its transcription approach
KR101135198B1 (ko) 음성을 이용하여 콘텐츠를 제작하는 방법 및 장치
KR20220164668A (ko) 인공지능 기반의 학습된 단어 추출 가능 자동 음성 녹음기
JP2006010739A (ja) 音声認識装置
CN111046220B (zh) 一种听写过程中的报读语音的重播方法及电子设备
JPH10124090A (ja) 音声認識方法およびこの方法を実施する装置
JP2707552B2 (ja) 単語音声認識装置