JPS6043697A - Consonant and vowel boundary detection device - Google Patents

Consonant and vowel boundary detection device

Info

Publication number
JPS6043697A
JPS6043697A JP58152034A JP15203483A JPS6043697A JP S6043697 A JPS6043697 A JP S6043697A JP 58152034 A JP58152034 A JP 58152034A JP 15203483 A JP15203483 A JP 15203483A JP S6043697 A JPS6043697 A JP S6043697A
Authority
JP
Japan
Prior art keywords
vowel
section
stationary
consonant
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58152034A
Other languages
Japanese (ja)
Other versions
JPH0534678B2 (en
Inventor
三船 義照
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58152034A priority Critical patent/JPS6043697A/en
Publication of JPS6043697A publication Critical patent/JPS6043697A/en
Publication of JPH0534678B2 publication Critical patent/JPH0534678B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 産業上の利用分野 本発明は単音節認識における子音と母音の境界を検出す
る境界検出装置に関する。
DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention relates to a boundary detection device for detecting boundaries between consonants and vowels in monosyllable recognition.

従来例の構成とその問題点 従来の単音節認識装置における子音と母音の境界の検出
のだめの処理構成は、語頭の特徴ベクトルから語尾の方
向に向かって順次フレーム間距離D=dlS(xt i
 +xtl−1−1)ヲ計算シ、7+/−ム間距離りが
一定の閾値以上になるフレームを子音と母音の境界とし
ていた。しかしこのような構成では、やや処理時間は早
くなるものの、元来子音と母音の境界付近では非定常な
わたり部分が存在するためにフレーム間距離りが変動を
受け易く、検出精度に大きな問題が有り著しい認識率の
低下の原因となっていた。そこでやや検出精度を向上さ
せる方式においては、語頭と語尾の音声区間の検出を終
了した後に、前記音声区間の定常部を母音標準パターン
との正規化相関係数をフレーム毎に計算し一定の閾値以
上となる連続したフレームとして検出し、前記定常部の
平均ベクトルを計算し、順次語頭の方向に正規化相関係
数を計算しこの値が一定の閾値以下になるフレームを子
音と母音の境界としていた。しかしこの方式の場合にお
いても、単音節の子音部が母音部の入シゎたり部1で大
きく影響を与えるために、摩擦音/s/c/h/と破裂
音/p/l/に/や/b/d/q/ さらに鼻子音//
rr1//r1//q/との間には、前記正規化相関係
数の閾値に変動が有り、かつ話者の影響が有る等実用性
に問題が有った。
Configuration of the conventional example and its problems The processing configuration for detecting the boundary between consonants and vowels in the conventional monosyllable recognition device is to sequentially calculate the interframe distance D=dlS(xt i
+xtl-1-1) The frame in which the distance between 7 +/- is equal to or greater than a certain threshold was defined as the boundary between a consonant and a vowel. However, with this configuration, although the processing time is slightly faster, the inter-frame distance is susceptible to fluctuations due to the presence of unsteady transitions near the boundaries between consonants and vowels, which poses a major problem in detection accuracy. This was the cause of a significant decrease in the recognition rate. Therefore, in a method that slightly improves the detection accuracy, after completing the detection of the speech sections at the beginning and end of a word, the normalized correlation coefficient between the stationary part of the speech section and the vowel standard pattern is calculated for each frame, and a fixed threshold value is calculated. The average vector of the stationary part is calculated, and the normalized correlation coefficient is sequentially calculated in the direction of the beginning of the word.The frame where this value is below a certain threshold is determined as the boundary between a consonant and a vowel. there was. However, even in this case, since the consonant part of a monosyllable has a large influence on the vowel part 1, the fricative /s/c/h/ and the plosive /p/l/ are affected by / and so on. /b/d/q/ more nasal consonants//
rr1//r1//q/ has problems in practicality, such as variations in the threshold value of the normalized correlation coefficient and influence of the speaker.

発明の目的 本発明は上記従来の問題点を解消するもので、わたり部
の変動や、子音の種別による母音入りわたり部の変動を
、母音定常部の特徴ベクトルの最大値を与えるチャネル
から最小値を与えるチャネルの中で上位の複数チャネル
についてのみ前記正規化相関係数を計算すること腎より
、母音部のフォルマント周波数のトレースを行って、子
音部の母音区間に与える影響や話者による影響を取り除
き、子音と母音の境界検出精度を安定して向上させ、か
つ実時間処理を可能とする子音と母音の境界検出装置を
提供することを目的とする。
Purpose of the Invention The present invention solves the above-mentioned conventional problems.The present invention is aimed at solving the above-mentioned problems of the conventional art. Calculate the normalized correlation coefficient only for the upper channels among the channels that give It is an object of the present invention to provide a consonant-vowel boundary detection device that can stably improve consonant-vowel boundary detection accuracy and enable real-time processing.

発明の構成 本発明は、入力音声の電力系列によって語頭を検出し、
各フレーム(xtl)について前もって記憶した標準パ
ターンである母音(A/ i /U/E 10/X )
との距離を計算しその距離が一定の閾値θ7より小さく
なるフレームが一定区間以上連続する場合にそのフレー
ムの区間[1sss〜1.esslを入力音声の母音定
常区間とし、前記母音定常区間の中心)(N:平均フレ
ーム数、j:入力音声の母音定常部の中心フレーム)を
計算し、前記平均ベクトルXavのチャネル数をMとす
ると、最大値を持つチャネルから上位のLチャネル(L
<M)を検出しておき、このL個のチャネルについて、
前記平均ベクトルxavと定常部以前のフレームm(m
<i、8B)との正規化相関係数C0 正規化相関係数C0が前もって記憶した閾値θ。。1(
θ。。1〈1)以下になるフレーム1゜。1を検出し、
さらに前もって記憶した閾値θ。。2(θ。。2〈θ。
Structure of the Invention The present invention detects the beginning of a word based on the power sequence of input speech,
Vowels (A/i/U/E 10/X) which are standard patterns memorized in advance for each frame (xtl)
Calculate the distance to the frame, and if there are consecutive frames for which the distance is smaller than a certain threshold θ7 for a certain period or more, the frame period [1sss to 1. Let essl be the vowel stationary section of the input voice, calculate the center of the vowel stationary section) (N: average number of frames, j: center frame of the vowel stationary section of the input voice), and let M be the number of channels of the average vector Xav. Then, the upper L channel (L
<M), and for these L channels,
The average vector xav and the frame m before the stationary part (m
<i, 8B) Normalized correlation coefficient C0 The threshold value θ that the normalized correlation coefficient C0 is stored in advance. . 1(
θ. . 1〈1) Frame 1゜ is less than or equal to 1〈1〉. 1 is detected,
Furthermore, a threshold value θ is stored in advance. . 2(θ..2〈θ.

。1〈1)以下になるフレーム1゜02 ”検出し、前
記フレーム1゜。1とフレーム1c02の中心フレーム
1COICO−”COI+1CO21)を子音と母音の
境界として検出し、電力系列による語尾の検出をもって
処理の終了とすることによって、子音と母音のわたり部
の変動や子音の種別による母音入りわたり部の変動を吸
収し、話者による母音定常区間の変動も吸収することに
より子音と母音の境界の検出精度を安定して向上させか
つ処理時間を短縮し、単音節音声認識の認識率の改善と
実時間処理を達成し、実用化を図ったものである。
. 1〈1) or less, frame 1゜02'' is detected, the center frame 1COICO-''COI+1CO21) of the frame 1゜.1 and frame 1c02 is detected as the boundary between a consonant and a vowel, and the end of the word is detected using the power sequence and processed. The boundary between consonants and vowels can be detected by absorbing fluctuations in the transition between consonants and vowels and fluctuations in the transition between vowels depending on the type of consonant, as well as fluctuations in the constant vowel interval depending on the speaker. The aim is to stably improve accuracy, shorten processing time, improve the recognition rate of monosyllabic speech recognition, achieve real-time processing, and put it into practical use.

実施例の説明 第1図は本発明の一実施例における子音と母音の境界検
出装置のブロック図を示すものである。
DESCRIPTION OF THE EMBODIMENTS FIG. 1 shows a block diagram of a consonant-vowel boundary detection device according to an embodiment of the present invention.

入力部fi、A/D変換器1と、入力音声信号の語頭と
語尾を例えば電力系列の変化を一定の閾値によって検出
する音声区間検出手段2と、音声時系列から一定時間間
隔ごとに例えばフィルタ・バンクの出力系列あるい1d
LPc係数の出力系列等の特徴系列(Xti]に変換す
る特徴系列変換手段3と、特徴系列(Xtilを一定区
間記憶する特徴系列記憶部4からなる。5は大刀系列の
特徴ベクトル(Xti)と母音標準パターン5″との距
離を距離計算手段5′によって計算し、一定の閾値以下
の区間を母音定常区間とする定常部検出手段である。
An input section fi, an A/D converter 1, a voice section detection means 2 that detects the beginning and end of a word of an input voice signal, for example, by using a certain threshold value to detect a change in the power series, and a filter that detects, for example, a change in the power series at a certain time interval from the voice time series.・Bank output series or 1d
It consists of a feature series conversion means 3 that converts into a feature series (Xti) such as an output series of LPc coefficients, and a feature series storage unit 4 that stores the feature series (Xtil) over a certain interval. 5 is a feature vector (Xti) of a large sword series. The distance from the vowel standard pattern 5'' is calculated by the distance calculation means 5', and the section where the distance is equal to or less than a certain threshold value is defined as a constant vowel section.

6は定常部検出手段5によって検出された母音定常区間
の中心フレーム付近の数フレームから母音定常部平物ベ
クトル(xav)6′を計算する母音定常区間均ベクト
ル計算手段である。7は母音定常部平物ベクトル(Xa
v16’の全チャネルからピーク値を持つL個のチャネ
ルを検出する、平均ベクトルピークチャネル検出手段で
ある。子音と母音゛の境界検出部は、特徴系列記憶部4
に記憶された母音定常区間以前の特徴ベクトル(Xtm
lと母音定常部平物ベクトル(Xav)6′との正規化
相関係数を、平均ベクトルピークチャネル検出手段7で
、検出したチャネルのみにおいて計算する正規化係数計
算手段8と、正規化相関係数が一定の閾値θCo19″
と閾値θ。。g///以下となるフレームl。。1゜1
co2を検出する比較手段9′を具備し、前記フレーム
1co1 と1co2の相加平均((1co1 ” c
o2 V2)を計算し、境界フレーム信号9“とじて出
力する境界フレーム検出手段9からなる0 10は音声の語頭を音声区間検出手段2より音声開始1
1として入力した後、特徴系列変換手段3からのベクト
ル系列(Xt工)3′を特徴系列記憶部4に記憶する指
示(図示せず)を出力する一方、定常部検出手段5から
の定常区間開始15及び定常区間終了16の信号を入力
し、特徴系列記憶部4に定常フレーム指示13を出力し
て母音定常区間均ベクトル計算手段6によって母音定常
部平均ベクトルtXav)6”&計算させ、さらに平均
ベクトルピークチャネル検出手段7によって、母音定常
部平均ベクトル(xav)6′のピークチャネルを検出
し、このLチャネルについて、母音定常平均ベクトル(
xav)6′と定常区間開始15以前の特徴ベクトル(
xtmlを比較シレーム指示14で与えることによって
正規化相関係数を正規化相関係数計算手段8によってめ
、境界フレーム検出手段9によって検出した境界フレー
ム信号9″“を入力し、子音母音境界フレーム17を出
力する総合制御手段である。
Reference numeral 6 denotes a vowel stationary section average vector calculating means for calculating a vowel stationary section average vector (xav) 6' from several frames near the center frame of the vowel stationary section detected by the stationary section detecting means 5. 7 is the vowel stationary part flat vector (Xa
This is an average vector peak channel detection means that detects L channels having peak values from all channels of v16'. The boundary detection unit between a consonant and a vowel is a feature series storage unit 4.
The feature vector before the vowel stationary section (Xtm
The normalization coefficient calculation means 8 calculates the normalized correlation coefficient between l and the vowel stationary part normal vector (Xav) 6' only in the detected channel by the average vector peak channel detection means 7, and the normalization correlation coefficient Threshold value θCo19″ with a constant number
and threshold θ. . Frame l that is less than or equal to g///. . 1゜1
co2, the arithmetic mean of the frames 1co1 and 1co2 ((1co1''c
o2 V2) and outputs the boundary frame signal 9 by dividing it into a boundary frame signal 9.
1, then outputs an instruction (not shown) to store the vector sequence (Xt) 3' from the feature sequence conversion means 3 in the feature sequence storage section 4, while The signals of the start 15 and the end of the stationary section 16 are input, the stationary frame instruction 13 is outputted to the feature sequence storage section 4, and the vowel stationary section average vector calculation means 6 calculates the vowel stationary section average vector tXav)6''&. The average vector peak channel detection means 7 detects the peak channel of the vowel stationary part average vector (xav) 6', and for this L channel, the vowel stationary average vector (
xav) 6' and the feature vector before the start of the steady interval 15 (
xtml by the comparison sirem instruction 14, the normalized correlation coefficient is calculated by the normalized correlation coefficient calculation means 8, and the boundary frame signal 9'' detected by the boundary frame detection means 9 is input, and the consonant/vowel boundary frame 17 is inputted. It is a comprehensive control means that outputs.

以上のように構成された本実施例の境界検出精度につい
て、以下第2図を用いてその動作を説明する。同図にお
いて、入力単音節音声(C+V)の原波形を18に示し
ている。特徴系列変換手段3の出力としてのベクトル系
列[X、+3’を3“に示している。入力信号の特徴ベ
クトル3″に語頭の音声開始11と語尾の音声終了12
を示し、また定常部検出手段5によって検出される定常
区間開始15と定常区間終了16に挾1れた母音定常区
間を19に示す。母音定常区間19の中心付近の数フレ
ームの平均値によってまる母音定常平均ベクトル(Xa
v)e’を6“に示す。平均ベクトルピークチャネル検
出手段7によって検出されるL個のピークチャネルもク
ロメノ・ソチによって示す。
The operation of the boundary detection accuracy of this embodiment configured as described above will be explained below using FIG. 2. In the figure, the original waveform of the input monosyllabic voice (C+V) is shown at 18. The vector sequence [X, +3' as the output of the feature sequence conversion means 3 is shown in 3''.The feature vector 3'' of the input signal includes the beginning of the word's initial voice 11 and the voice end of the word's end 12.
, and a vowel steady section sandwiched between the steady section start 15 and the steady section end 16 detected by the steady section detecting means 5 is shown at 19. A vowel stationary average vector (Xa
v) e' is shown as 6". The L peak channels detected by the average vector peak channel detection means 7 are also shown by Chromeno-Sochi.

母音定常平均ベクトル(、Xa、16’と定常区間開始
以前のフレームとのL個のチャネルにおける正規化相関
係数の計算の様子を20に示す。語頭方向へ向う正規化
相関係数値の変化する様子と閾値θ 9″と閾値θ。。
Figure 20 shows how the normalized correlation coefficients are calculated in L channels between the vowel stationary average vector (, Xa, 16' and frames before the start of the stationary interval. Condition, threshold value θ 9″, and threshold value θ.

g///による境界フレーム信号01 9“の出力の様子を21に示す。Boundary frame signal 01 by g/// 9" is shown in 21.

入力音声は、A/D変換器1によってディジタル系列に
変換され、特徴系列変換手段3によって一定時間間隔ご
とに特徴系列3′に変換される。また音声区間検出手段
2によって電力系列から音声開始11が検出されると、
特徴系列記憶部4において一定区間ごとの特徴系列の記
憶が開始され3″。
Input speech is converted into a digital sequence by the A/D converter 1, and converted into a characteristic sequence 3' at regular time intervals by the characteristic sequence converting means 3. Further, when the voice section detection means 2 detects the voice start 11 from the power series,
The feature series storage unit 4 starts storing feature series for each predetermined section 3''.

同時に定常部検出手段5によって、各フレームの母音標
準パターン5“との距離を距離削算手段5′によって計
算し、一定の閾値以下になる区間を母音定常区間として
定常区間開始15と定常区間終了16の信号として検出
する。初音定常部平均ベクトル計算手段6は、母音定常
区間の特徴系列記憶部4の特徴ベクトルについて、母音
定常部平均ベクトル(xav)6′を計算し、平均ベク
トルビーク検出手段7によって検出した母音定常部平均
ベクトル(xav)6′のL個のピークチャネルについ
てのみ、定常区間開始15以前のフレームの特徴ベクト
ル(xt工: i < m )と母音定常部平均ベクト
ルの、正規化相関係数値を正規化相関係数計算手段8に
よってめ20,21.一定の閾値θ。。19″以下およ
びθ。。g/7/以下にはじめてなるフレーム’coj
 +1co2 を検出し、その相加平均を境界フレーム
信号9″′として検出し、子音母音境界フレーム出力1
7とする。語尾の検出は上記の処理と並行して音声区間
検出手段2によって行い、音声終了12と見方し、次の
発声の待機状態とする。この並列処理によって実時間処
理を可能にしている。
At the same time, the distance from the vowel standard pattern 5'' of each frame is calculated by the steady-state detection means 5, and the distance reduction means 5' calculates the distance between each frame and the vowel standard pattern 5'', and the intervals where the distance is equal to or less than a certain threshold are determined as vowel steady-state intervals, and the steady-state interval start 15 and the steady-state end end. The initial constant part average vector calculation means 6 calculates the vowel steady part average vector (xav) 6' for the feature vectors in the feature sequence storage unit 4 of the vowel stationary section, and calculates the vowel steady part average vector (xav) 6'. Only for the L peak channels of the vowel stationary part average vector (xav) 6' detected in step 7, the normalization of the feature vector (xt: i < m) of the frame before the start of the stationary interval 15 and the vowel stationary part average vector The normalized correlation coefficient calculation means 8 calculates the normalized correlation coefficient 20, 21. A certain threshold value θ..19″ or less and θ. . g/7/below is the first frame 'coj
+1co2 is detected, its arithmetic mean is detected as boundary frame signal 9'', and consonant-vowel boundary frame output 1
Set it to 7. The end of the word is detected by the voice section detecting means 2 in parallel with the above processing, and the end of the voice is regarded as 12, and the next utterance is in a standby state. This parallel processing enables real-time processing.

以上の構成をとることによって子音と母音の境界におけ
るわたり部の変動や子音の種別による母音入りわたり部
の変動や話者変動のゆらぎを吸収して、子音と母音の境
界検出精度を安定して向上させることが出来、さらに実
時間処理が図れる。
By adopting the above configuration, fluctuations in the transition part at the boundary between a consonant and a vowel, fluctuations in the vowel transition part depending on the type of consonant, and fluctuations in speakers can be absorbed, and the accuracy of detecting the boundary between a consonant and a vowel can be stabilized. Furthermore, real-time processing can be achieved.

第3図〜第8図に前記実施例装置を実際にO段の音節に
ついて代表的子音の種類の音節に適用した場合の例を示
している。各図において横軸は、語頭からの継続時間(
ms)を示してお9.1フレーム6m5eC,第1番目
の黒線は語頭、第2番目の黒線はセグメント境界、第3
番目の黒線は母音定常区間心を示している。また各図a
は単音節音声の電力の時間変化を示しており、同図すは
同様の特徴ベクトル系列の時間変化(ここでは周波数の
ランニングスペクトル)を示している。いずれの単音節
においても良好に子音と母音の境゛界が検出されている
ことがわかる。
FIGS. 3 to 8 show examples in which the above-mentioned embodiment apparatus is actually applied to syllables of typical consonant types in the O stage. In each figure, the horizontal axis is the duration from the beginning of the word (
ms) is shown at 9.1 frame 6m5eC, the first black line is the beginning of the word, the second black line is the segment boundary, and the third black line is the beginning of the word.
The th black line indicates the vowel stationary interval center. Also each figure a
shows the temporal change in the power of monosyllabic speech, and the same figure shows the temporal change in a similar feature vector series (here, the frequency running spectrum). It can be seen that the boundaries between consonants and vowels are well detected in all monosyllables.

第3図、第4図に代表的破裂子音/に/、/G/を示し
、第5図に代表的摩擦子音/S/第6図に代表的鼻子音
/N/、第7図に代表的はじき音/R/。
Figures 3 and 4 show typical plosive consonants /ni/ and /G/, Figure 5 shows typical fricative consonants /S, Figure 6 shows typical nasal consonants /N/, and Figure 7 shows typical Target sound /R/.

第8図に代表的気音/HA示す。これらのことからいか
なる子音種別からくる変動の影響も受け彦いことがわか
る。
Figure 8 shows typical aspirators/HA. From these facts, it can be seen that it is not affected by variations caused by any consonant type.

発明の効果 本発明は、子音と母音の検出処理を、電力系列による語
頭検出を行ない、語頭検出後に特徴ベクトル系列におけ
る母音標準ノくターンとの距離を計算し、一定の閾値以
下となるフレームが一定長以上連続する区間(isss
〜1e881を母音定常区間とし、母音定常区間中央の
数フレームの母音定常部平均ベクトル(Xav)をめ、
このベクトルのヒ。
Effects of the Invention The present invention performs consonant and vowel detection processing by detecting the beginning of a word using a power sequence, and after detecting the beginning of the word, calculates the distance from the standard vowel turn in the feature vector series, and detects frames whose values are below a certain threshold. A continuous section of a certain length or more (isss
~1e881 is the vowel stationary section, and the vowel stationary section average vector (Xav) of several frames in the center of the vowel stationary section is calculated,
This vector h.

−ク値な持つチャネルをL個検出しておき、このL個の
チャネルについてのみ、母音定常部平均ベクトル(xa
v)と母音定常区間以前のフレームm(m < i 、
 881との正規化相関係数C0θco1 (〈1)以
下および閾値θ。。2(〈θ。。1く1)以下に初めて
なるフレームの相加平均を子音と母音の境界フレームと
し、語尾の検出を並列処理し、次の発声に備えるように
した子音と冊もの土飯泊使!:1!背置【閏すうもの′
ヒ゛めり、上記の構成をとることによって、子音と母音
の境界におけるわたり部の変動や、子音の種別からくる
母音入りわたり部の変動を吸収し、また話者変動による
母音定常区間のゆらぎを吸収して、子音と母音の境界検
出精度を安定して向上させることが出来、さらに実時間
処理も可能となり実用化が達成されるものである。
- Detect L channels having a
v) and the frame m before the vowel stationary interval (m < i,
Normalized correlation coefficient C0θco1 with 881 (<1) or less and threshold value θ. . The arithmetic mean of the first frames below 2 (〈θ..1 × 1) is used as the boundary frame between consonants and vowels, and the detection of word endings is processed in parallel to prepare for the next utterance. Night envoy! :1! Separation [leaping thing'
In summary, by adopting the above configuration, it is possible to absorb fluctuations in the transition part at the boundary between a consonant and a vowel, as well as fluctuations in the vowel transition part caused by the type of consonant, and also to absorb fluctuations in the vowel steady interval due to speaker variations. By absorbing this information, it is possible to stably improve the accuracy of detecting the boundary between consonants and vowels, and furthermore, real-time processing is also possible, thereby achieving practical use.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例における子音と母音の境界検
出装置のブロック図、第2図は第1図に示した実施例装
置の動作を説明するだめの説明図、第3図〜第8図はそ
れぞれ同実施例装置にオ段甲音節の代表的な子音分類の
子音を持つ単音節A■乙/Go/、/So/、/No/
、/RO/、/HO/を入力したときの実施結果を示す
特性図である01・・・・・・A/D変換器、2・・・
・・・音声区間検出手段、3・・・・・・特徴系列変換
手段、4・・・・・・特徴系列記憶部、5′・・・・・
・距離計算手段、5″・・・・・・母音標準バクーン、
5・・・・・・定常部検出手段、6・・・・・・母音定
常区間均ベクトル計算手段、7・・・・・・平均ベクト
ルビーク検出手段、8・・・・・・正規比相°関係数言
」薄手段、9・・・・・・境界フレーム検出手段。
FIG. 1 is a block diagram of a consonant-vowel boundary detection device according to an embodiment of the present invention, FIG. 2 is an explanatory diagram for explaining the operation of the embodiment device shown in FIG. 1, and FIGS. Figure 8 shows monosyllables A■/Go/, /So/, /No/ with consonants of the typical consonant classification of the upper syllable in the same example device.
, /RO/, /HO/ are characteristic diagrams showing the implementation results when inputting 01... A/D converter, 2...
...Voice section detection means, 3...Feature sequence conversion means, 4...Feature sequence storage section, 5'...
・Distance calculation means, 5″...Vowel standard Bakun,
5...Steady part detection means, 6...Vowel steady section average vector calculation means, 7...Mean vector peak detection means, 8...Normal ratio phase °Relational number word"thin means, 9... Boundary frame detection means.

Claims (1)

【特許請求の範囲】[Claims] 入力音声を特徴ベクトルxtiの時系列パターン(Xt
l、xt2.・・・・・・IxtN)に変換する特徴系
列変換手段と、入力信号から音声区間を切り出す音声区
間検出手段と、特徴ベクトル系列の中で、母音標準パタ
ーンとの距離が一定の閾値以下のフレームが一定区間長
以上続く区間を母音定常区間として検出する定常部検出
手段と、前記母音定常区間の平均ベクトルと前記定常区
間以前のフレームとの正規化相関係数を計算する正規化
相関係数割算手段とを備え、前記定常区間から順次語頭
方向に、前記母音定常区間均ベクトル(Xtilの最大
値を、持つチャネルから最小値を持つチャネルオでの中
で上位の複数チャネルについて、前記正規化相関係数計
算手段によってめた値が、一定の閾値以下であるかを比
較し、はじめて前記閾値以下となったフレームを子音と
母音の境界フレームとすることを特徴とする子音と母音
の境界検出装置。
The input speech is expressed as a time series pattern of feature vector xti (Xt
l, xt2. . . . IxtN), a speech section detection means that extracts a speech section from the input signal, and a frame whose distance from the vowel standard pattern is less than a certain threshold in the feature vector series. a stationary part detecting means for detecting a section where the vowel stationary section continues for a certain section length or more as a vowel stationary section; and a normalized correlation coefficient divider for calculating a normalized correlation coefficient between the average vector of the vowel stationary section and frames before the stationary section. calculating means, sequentially from the stationary interval toward the beginning of the word, calculate the normalization phase for the plurality of upper channels among the channels having the maximum value of the vowel stationary interval average vector (Xtil) and the channel having the minimum value. A consonant-vowel boundary detection device, characterized in that it compares whether a value obtained by a relational coefficient calculation means is below a certain threshold value, and sets the frame in which the value is below the threshold value for the first time as a consonant-vowel boundary frame. .
JP58152034A 1983-08-19 1983-08-19 Consonant and vowel boundary detection device Granted JPS6043697A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58152034A JPS6043697A (en) 1983-08-19 1983-08-19 Consonant and vowel boundary detection device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58152034A JPS6043697A (en) 1983-08-19 1983-08-19 Consonant and vowel boundary detection device

Publications (2)

Publication Number Publication Date
JPS6043697A true JPS6043697A (en) 1985-03-08
JPH0534678B2 JPH0534678B2 (en) 1993-05-24

Family

ID=15531604

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58152034A Granted JPS6043697A (en) 1983-08-19 1983-08-19 Consonant and vowel boundary detection device

Country Status (1)

Country Link
JP (1) JPS6043697A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63211502A (en) * 1987-02-26 1988-09-02 近藤シルバニア株式会社 Lighting apparatus
US6525255B1 (en) 1996-11-20 2003-02-25 Yamaha Corporation Sound signal analyzing device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63211502A (en) * 1987-02-26 1988-09-02 近藤シルバニア株式会社 Lighting apparatus
US6525255B1 (en) 1996-11-20 2003-02-25 Yamaha Corporation Sound signal analyzing device

Also Published As

Publication number Publication date
JPH0534678B2 (en) 1993-05-24

Similar Documents

Publication Publication Date Title
CN111508498A (en) Conversational speech recognition method, system, electronic device and storage medium
US20090271197A1 (en) Identifying features in a portion of a signal representing speech
JPH0465392B2 (en)
JPS60200300A (en) Voice head/end detector
JPS6043697A (en) Consonant and vowel boundary detection device
JP3266124B2 (en) Apparatus for detecting similar waveform in analog signal and time-base expansion / compression device for the same signal
Sarma et al. Consonant-vowel unit recognition using dominant aperiodic and transition region detection
JPH01255000A (en) Apparatus and method for selectively adding noise to template to be used in voice recognition system
JPS60129796A (en) Sillable boundary detection system
WO2009055701A1 (en) Processing of a signal representing speech
JPH03114100A (en) Voice section detecting device
CN107833582B (en) Arc length-based voice signal endpoint detection method
JP2017068153A (en) Semiconductor device, system, electronic apparatus, and voice recognition method
JP3411074B2 (en) Vowel interval detection device and vowel interval detection method
JPS6314359B2 (en)
JPH0343639B2 (en)
JPS6225796A (en) voice recognition device
JPS60198596A (en) Syllable boundary selection system
KR100322203B1 (en) Device and method for recognizing sound in car
JP2891259B2 (en) Voice section detection device
JPH04204899A (en) voice recognition device
JPH0259480B2 (en)
JPH0449953B2 (en)
JPS6256998A (en) Consonant section detector
JPH02192335A (en) Word head detecting system