JPH0683384A - A device for automatic detection and identification of utterance intervals of multiple speakers in speech - Google Patents

A device for automatic detection and identification of utterance intervals of multiple speakers in speech

Info

Publication number
JPH0683384A
JPH0683384A JP4231157A JP23115792A JPH0683384A JP H0683384 A JPH0683384 A JP H0683384A JP 4231157 A JP4231157 A JP 4231157A JP 23115792 A JP23115792 A JP 23115792A JP H0683384 A JPH0683384 A JP H0683384A
Authority
JP
Japan
Prior art keywords
voice
speakers
unit
appearance probability
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4231157A
Other languages
Japanese (ja)
Other versions
JPH071438B2 (en
Inventor
Masahide Sugiyama
雅英 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Original Assignee
A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R JIDO HONYAKU DENWA KENKYUSHO KK filed Critical A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP4231157A priority Critical patent/JPH071438B2/en
Publication of JPH0683384A publication Critical patent/JPH0683384A/en
Publication of JPH071438B2 publication Critical patent/JPH071438B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 この発明は任意数の未知話者の音声区間を検
出して同定できるような音声中の複数話者の発話区間自
動検出同定装置を提供することを主要な特徴とする。 【構成】 入力音声1を音声特徴抽出部2で特徴ベクト
ルの時系列3に変換し、量子化部6によって共通符号帳
作成部4で作成された共通符号帳5により符号の系列7
に変換し、音声区間始終端検出部8で各音声区間ごとに
各符号の出現頻度を算出し、出現確率算出部10で出現
確率の集合11を作成し、クラスタ分析部12で幾つか
のクラスタ13に分割し、そのクラスタ13の情報を基
にして音声区間のクラス判別を行なう。
(57) [Summary] [Object] The main feature of the present invention is to provide an automatic detection and identification device for utterance intervals of a plurality of speakers in a voice capable of detecting and identifying voice intervals of an arbitrary number of unknown speakers. And [Structure] The input speech 1 is converted into a time series 3 of feature vectors by a speech feature extraction unit 2, and a code sequence 7 is generated by a common codebook 5 created by a common codebook creation unit 4 by a quantization unit 6.
The appearance frequency of each code is calculated for each voice section by the voice section start / end detection unit 8, the appearance probability calculation unit 10 creates a set 11 of appearance probabilities, and the cluster analysis unit 12 generates several clusters. It is divided into 13, and the class of the voice section is determined based on the information of the cluster 13.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は音声中の複数話者の発
話区間自動検出同定装置に関し、特に、未知の複数話者
の発話区間を自動的に検出して同定するような発話区間
自動検出同定装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an automatic utterance section detection / identification apparatus for a plurality of speakers in a voice, and more particularly to an automatic utterance section automatic detection for automatically detecting and identifying unknown utterance sections of a plurality of speakers. The present invention relates to an identification device.

【0002】[0002]

【従来の技術および発明が解決しようとする課題】音声
中の複数者の自動検出同定や、音声中の複数言語の識別
や、非音声の同定や、音声,雑音の同定や、音響言語モ
デルを作成するに際して、話者の発話区間を同定する必
要がある。
2. Description of the Related Art Automatic detection and identification of multiple persons in speech, identification of multiple languages in speech, identification of non-speech, identification of speech and noise, acoustic language model When creating, it is necessary to identify the speaker's utterance section.

【0003】従来では、複数話者による発話区間を検出
するためには、予めそれぞれの話者の音声を用いて話者
登録を行なっておき、話者識別の技術を用いて話者の発
話区間を検出して同定する方法が用いられている。しか
しながら、発話区間を検出して同定するためには、事前
の登録が必要であり、任意数の未知話者の音声区間を検
出同定することができなかった。
Conventionally, in order to detect the utterance section by a plurality of speakers, speaker registration is performed in advance by using the voices of the respective speakers, and the utterance section of the speaker is used by a speaker identification technique. The method of detecting and identifying is used. However, in order to detect and identify the speech section, it is necessary to register in advance, and it has been impossible to detect and identify the speech section of an arbitrary number of unknown speakers.

【0004】それゆえに、この発明の主たる目的は、任
意数の未知話者の音声区間を検出して同定できるような
音声中の複数話者の発話区間自動検出同定装置を提供す
ることである。
Therefore, a main object of the present invention is to provide an automatic utterance section detection / identification apparatus for a plurality of speakers in a voice, which can detect and identify the voice sections of an arbitrary number of unknown speakers.

【0005】[0005]

【課題を解決するための手段】請求項1に係る発明は、
入力された音声から特徴パターンを抽出する音声特徴抽
出手段と、共通符号を作成する共通符号帳作成手段と、
音声特徴抽出手段によって抽出された特徴パターンを共
通符号帳作成手段によって作成された共通符号で量子化
する量子化手段と、複数の音声区間に対して共通符号の
出現確率を算出する出現確率算出手段と、算出された出
現確率をクラスタ分析するクラスタ分析手段と、分析さ
れたそれぞれのクラスタに属する出現確率を検出し、そ
の出現確率に対応する音声区間を同定する同定手段を備
えて構成される。
The invention according to claim 1 is
A voice feature extraction means for extracting a feature pattern from the input voice, a common codebook creation means for creating a common code,
Quantization means for quantizing the feature pattern extracted by the voice feature extraction means with the common code created by the common codebook creation means, and appearance probability calculation means for calculating the appearance probability of the common code for a plurality of voice intervals. A cluster analysis means for performing a cluster analysis of the calculated appearance probabilities, and an identification means for detecting the appearance probabilities belonging to each analyzed cluster and identifying the voice section corresponding to the appearance probabilities.

【0006】請求項2に係る発明は、複数の音声区間の
始終端が予め定められている。請求項3に係る発明は、
複数の音声区間の始終端が自動的に検出される。
In the invention according to claim 2, the start and end of a plurality of voice sections are predetermined. The invention according to claim 3 is
The start and end of a plurality of voice sections are automatically detected.

【0007】請求項4に係る発明は、話者数が予め与え
られていない場合に話者数を自動的に決定する。
The invention according to claim 4 automatically determines the number of speakers when the number of speakers is not given in advance.

【0008】請求項5に係る発明は、話者に独立な雑音
区間に対応する雑音クラスタを有する音声中の複数話者
の発話区間の出現確率を算出する。
The invention according to claim 5 calculates the appearance probability of the utterance section of a plurality of speakers in a voice having a noise cluster corresponding to a speaker-independent noise section.

【0009】請求項6に係る発明は、入力された音声か
ら特徴パターンを抽出する音声特徴抽出手段と、共通符
号を作成する共通符号帳作成手段と、抽出された特徴パ
ターンを共通符号帳作成手段によって作成された共通符
号で量子化する量子化手段と、予め与えられた初期値を
基にエルゴード隠れマルコフモデルの状態における符号
の出現確率,遷移確率および初期状態確率を更新する更
新手段と、更新の停止条件を判定する判定手段と、得ら
れたエルゴード隠れマルコフモデルを用いて音声を復号
化する手段を備えて構成される。
According to a sixth aspect of the present invention, a voice feature extracting means for extracting a feature pattern from the input voice, a common codebook producing means for producing a common code, and a common codebook producing means for the extracted feature pattern. Quantization means that quantizes with the common code created by, update means that updates the code appearance probability, transition probability and initial state probability in the state of the Ergodic Hidden Markov Model based on a given initial value, and And a means for decoding speech using the obtained Ergodic hidden Markov model.

【0010】請求項7に係る発明は、入力された音声か
ら特徴パターンを抽出する音声特徴抽出手段と、予め与
えられた初期値を基に混合連続分布型エルゴード隠れマ
ルコフモデルの状態における音声特徴量の出現確率,分
岐確率,遷移確率および初期状態確率を更新する更新手
段と、更新の停止条件を判定する判定手段と、得られた
混合連続分布型エルゴード隠れマルコフモデルを用いて
音声を復号化する手段を備えて構成される。
According to a seventh aspect of the present invention, a voice feature extracting means for extracting a feature pattern from an input voice and a voice feature quantity in a state of a mixed continuous distribution type ergodic hidden Markov model based on a preset initial value. Updating means for updating the occurrence probability, branching probability, transition probability and initial state probability of, the judging means for judging the update stop condition, and the obtained continuous continuous distribution type ergodic hidden Markov model for decoding speech It is configured with means.

【0011】[0011]

【作用】この発明に係る音声中の複数話者の発話区間自
動検出同定装置は、入力された音声から特徴パターンを
抽出し、抽出された特徴パターンを共通符号で量子化
し、複数の音声区間に対して共通符号の出現する確率を
算出する。出現確率の集合をクラスタ分析することによ
り、出現確率を複数個のクラスタに分割する。このと
き、予め話者数が与えられている場合は、クラスタ分析
において指定の数に達するまで分割を行ない、話者数が
未知の場合にはクラスタ分析で得られる評価基準が或る
条件を満たすとき、クラスタ分割を停止する。ここで得
られたそれぞれのクラスタに属する出現確率は同一の話
者に属するものと判定し、その出現確率を与えた音声区
間をその話者から得られたものとする。ここで、複数個
の音声区間が予め得られていない場合には、音声区間の
自動検出方法を用いて自動的に区分化することもでき
る。また、エルゴード隠れマルコフモデルを用いて、音
声区間の区分化とその区間の話者クラスタ同定とを同時
に行なうこともできる。
The automatic speech segment detection / identification device for a plurality of speakers in a voice according to the present invention extracts a characteristic pattern from an input voice, quantizes the extracted characteristic pattern with a common code, and divides it into a plurality of speech periods. On the other hand, the probability of appearance of the common code is calculated. A cluster analysis is performed on the set of appearance probabilities to divide the appearance probabilities into a plurality of clusters. At this time, if the number of speakers is given in advance, the division is performed until the specified number is reached in the cluster analysis, and if the number of speakers is unknown, the evaluation standard obtained by the cluster analysis satisfies a certain condition. At this time, the cluster division is stopped. It is determined that the appearance probabilities belonging to the respective clusters obtained here belong to the same speaker, and the voice section given the appearance probability is obtained from the speaker. Here, when a plurality of voice sections are not obtained in advance, the voice section can be automatically segmented using an automatic detection method. Further, the segmentation of the voice section and the speaker cluster identification of the section can be performed at the same time by using the ergodic hidden Markov model.

【0012】[0012]

【実施例】図1はこの発明の一実施例のブロック図であ
る。図1を参照して、入力音声1は音声特徴抽出部2に
与えられ、特徴ベクトルの時系列3に変換される。共通
符号帳作成部4は予めその音声からもしくはそれとは独
立に共通符号帳5を作成し、量子化部6に与える。量子
化部6は音声特徴抽出部2から与えられた特徴ベクトル
の時系列を符号の系列7に変換する。この符号の系列7
は音声区間始終端検出部8に与えられ、音声区間始終端
検出部8は音声区間の始終端を検出し、複数個の音声区
間に分割する。この音声区間の集合9は出現確率算出部
10に与えられ、それぞれの音声区間ごとに各符号の出
現頻度が算出され、出現確率の集合11が作成されてク
ラスタ分析部12に与えられる。
1 is a block diagram of an embodiment of the present invention. With reference to FIG. 1, an input voice 1 is given to a voice feature extraction unit 2 and converted into a time series 3 of feature vectors. The common codebook creation unit 4 creates a common codebook 5 from the voice in advance or independently of it, and gives it to the quantization unit 6. The quantizing unit 6 converts the time series of feature vectors given from the voice feature extracting unit 2 into a code sequence 7. Sequence 7 of this code
Is given to the voice section start / end detection unit 8, and the voice section start / end detection unit 8 detects the start / end of the voice section and divides it into a plurality of voice sections. The set 9 of voice sections is given to the appearance probability calculation unit 10, the appearance frequency of each code is calculated for each voice section, and the set 11 of appearance probabilities is created and given to the cluster analysis unit 12.

【0013】クラスタ分析部12は出現確率の集合を幾
つかのクラスタに分割する。このクラスタの数は予め指
定されている場合は、その数とすることもできる。一
方、数が指定されていない場合は、評価基準に従って数
が設定される。クラスタ分析の手段としては、たとえば
ベクトル量子化手法が用いられ、量子化歪に対するしき
い値でクラスタ分析が行なわれる。クラスタ分析部12
で分析されたクラスタ13は音声区間のクラス判別部1
4に与えられ、クラスタの情報を基にそのクラスタに属
する出現確率が同一の話者から発話されたものとし、そ
の出現確率に対応する音声区間が同一の話者から発話さ
れたものと検出されて同定される。
The cluster analysis unit 12 divides the set of appearance probabilities into several clusters. If the number of clusters is designated in advance, it may be that number. On the other hand, when the number is not specified, the number is set according to the evaluation standard. As a means of cluster analysis, for example, a vector quantization method is used, and cluster analysis is performed with a threshold value for quantization distortion. Cluster analysis unit 12
The cluster 13 analyzed in step 1 is the voice section class discriminator 1
4, it is assumed that a speaker having the same appearance probability belonging to the cluster is uttered based on the information of the cluster, and a voice section corresponding to the appearance probability is detected as being uttered by the same speaker. Identified.

【0014】図2はこの発明の他の実施例のブロック図
である。この図2に示した実施例は、以下の点を除いて
図1の実施例と同じである。すなわち、音声区間始終端
検出部15は話者以外の指定された音声カテゴリ(たと
えば、日本語,英語などのような複数の言語カテゴリ)
に対応する区間の始終端を検出し、複数個の音声区間に
分割し、音声区間の集合9を作成し、以下、図1の実施
例と同様にして出現確率算出部10で出現確率11が算
出される。
FIG. 2 is a block diagram of another embodiment of the present invention. The embodiment shown in FIG. 2 is the same as the embodiment shown in FIG. 1 except for the following points. That is, the voice section start / end detection unit 15 determines a designated voice category other than the speaker (for example, a plurality of language categories such as Japanese and English).
The beginning and end of the section corresponding to is detected and divided into a plurality of voice sections to create a set 9 of voice sections. Hereinafter, the appearance probability calculation unit 10 determines the appearance probability 11 as in the embodiment of FIG. It is calculated.

【0015】図3はこの発明のさらに他の実施例のブロ
ック図である。図3において、音声特徴抽出部2,共通
符号帳作成部4および量子化部6は図1および図2の実
施例と同じであり、量子化部6で変換された符号列7は
離散的エルゴードHMM(隠れマルコフモデル)算出部
16に与えられ、パラメータ17が推定される。このパ
ラメータ17は音声のバックトレース部18に与えら
れ、推定されたパラメータを基に再度エルゴードHMM
を用いて音声を符号列とステートとの最適な対応が算出
され、バックトレース情報19が算出される。このバッ
クトレース情報19は音声区間のステート対応部20に
与えられ、バックトレース情報から各ステートに属する
音声区間が同一の話者から発話されたものと検出同定さ
れる。
FIG. 3 is a block diagram of still another embodiment of the present invention. In FIG. 3, the speech feature extracting unit 2, the common codebook creating unit 4, and the quantizing unit 6 are the same as those in the embodiments of FIGS. 1 and 2, and the code string 7 converted by the quantizing unit 6 is a discrete ergodic. The parameter 17 is given to the HMM (Hidden Markov Model) calculation unit 16 and the parameter 17 is estimated. This parameter 17 is given to the voice back trace unit 18, and again based on the estimated parameter, the ergodic HMM.
Is used to calculate the optimum correspondence between the code string and the state of the voice, and the back trace information 19 is calculated. The back trace information 19 is given to the state corresponding unit 20 of the voice section, and the back trace information detects and identifies that the voice section belonging to each state is uttered by the same speaker.

【0016】図4はこの発明のその他の実施例のブロッ
ク図である。この図4に示した実施例は、混合連続分布
型エルゴードHMM算出部3を用いたものである。入力
音声1は音声特徴抽出部2において、特徴ベクトルの時
系列3に変換され、混合連続分布型エルゴードHMM算
出部23に入力され、そのパラメータ24が推定され
る。この推定されたパラメータを基に、再度エルゴード
HMMを用いて音声のバックトレース部6によって符号
列とステートとの最適な対応が算出され、バックトレー
ス情報19が算出される。このバックトレース情報19
は音声区間のステート対応部20に与えられ、バックト
レース情報19から各ステートに属する音声区間が同一
の話者から発話されたものと検出同定される。クラスタ
の数が予め指定されている場合は、このステートの数を
その数とすることもできる。一方、数が指定されていな
い場合は評価基準に従って数を設定することができる。
1つの手段として、HMMの尤度に対するしきい値で行
なうことが可能である。
FIG. 4 is a block diagram of another embodiment of the present invention. The embodiment shown in FIG. 4 uses the mixed continuous distribution type ergodic HMM calculation unit 3. The input voice 1 is converted into a time series 3 of feature vectors in the voice feature extraction unit 2, input to the mixed continuous distribution ergodic HMM calculation unit 23, and its parameter 24 is estimated. Based on the estimated parameters, the ergodic HMM is used again to calculate the optimum correspondence between the code string and the state by the voice back trace unit 6, and the back trace information 19 is calculated. This backtrace information 19
Is given to the state corresponding unit 20 of the voice section, and the back trace information 19 detects and identifies that the voice section belonging to each state is uttered by the same speaker. If the number of clusters is specified in advance, the number of this state can be used as the number. On the other hand, when the number is not specified, the number can be set according to the evaluation standard.
As one means, it is possible to use a threshold for the likelihood of HMM.

【0017】図5はこの発明のその他の実施例のブロッ
ク図である。この図5に示した実施例も、音声特徴抽出
部2,共通符号帳作成部4および量子化部6は、図1〜
図3の実施例と同じであり、量子化部6で変換された符
号列7は音声区間および雑音区間始終端検出部21に与
えられる。音声区間および雑音区間始終端検出部21は
音声および雑音区間の始終端を検出し、複数個の音声区
間および雑音区間に分割し、音声および雑音区間の集合
22を作成する。出現確率算出部10は音声および雑音
区間の集合22に基づいて、各符号の出現頻度を算出す
ることにより、出現確率を算出し、出現確率の集合11
をクラスタ分析部12に与える。
FIG. 5 is a block diagram of another embodiment of the present invention. Also in the embodiment shown in FIG. 5, the voice feature extraction unit 2, the common codebook creation unit 4, and the quantization unit 6 are similar to those in FIGS.
As in the embodiment of FIG. 3, the code string 7 converted by the quantizing unit 6 is supplied to the voice section and noise section start / end detecting unit 21. The voice section / noise section start / end detection unit 21 detects the start / end of a voice section and a noise section, divides the start section into a plurality of voice sections and noise sections, and creates a set 22 of voice and noise sections. The appearance probability calculation unit 10 calculates the appearance probability by calculating the appearance frequency of each code based on the set 22 of voice and noise intervals, and the appearance probability set 11
To the cluster analysis unit 12.

【0018】クラスタ分析部12はその出現確率の集合
11で幾つかのクラスタに分割する。このクラスタの数
は予め指定されている場合は、その数とすることもで
き、一方、数が指定されていない場合は、評価基準に従
って数を設定することができる。クラスタ分析の手段と
しては、前述の図1に示した実施例と同様にして、ベク
トル量子化手法を用いる場合は、量子化歪に対するしき
い値で行なうことが可能である。音声区間のクラスタ判
別部14はクラスタ13の情報を基に、そのクラスタ1
3に属する出現確率を同一の話者カテゴリおよび雑音カ
テゴリから発話されたものとし、その出現確率に対する
音声,雑音区間を同一のカテゴリから生成されたものと
して検出し同定する。
The cluster analysis unit 12 divides the appearance probability set 11 into several clusters. If the number of clusters is designated in advance, it can be set to that number. On the other hand, if the number is not designated, the number can be set according to the evaluation standard. As a means for cluster analysis, in the same way as the embodiment shown in FIG. 1 described above, when the vector quantization method is used, it is possible to use a threshold value for quantization distortion. Based on the information of the cluster 13, the cluster discriminating unit 14 for the voice section
It is assumed that the appearance probabilities belonging to No. 3 are uttered from the same speaker category and the noise category, and the speech and noise intervals corresponding to the appearance probabilities are detected and identified as those generated from the same category.

【0019】[0019]

【発明の効果】以上のように、この発明によれば、入力
された音声から特徴パターンを抽出し、特徴パターンを
共通符号で量子化し、それぞれの音声区間に対して共通
符号の出現確率を算出し、算出された出現確率をクラス
タ分析し、それぞれのクラスタに属する出現確率を検出
して対応する音声区間を同定することにより、任意数の
未知話者の音声区間を予め登録することなく検出して同
定することができる。
As described above, according to the present invention, the characteristic pattern is extracted from the input voice, the characteristic pattern is quantized by the common code, and the appearance probability of the common code is calculated for each voice section. Then, by performing cluster analysis on the calculated appearance probabilities, by detecting the appearance probabilities belonging to each cluster and identifying the corresponding voice sections, it is possible to detect the voice sections of an arbitrary number of unknown speakers without registering them in advance. Can be identified.

【図面の簡単な説明】[Brief description of drawings]

【図1】この発明の一実施例のブロック図である。FIG. 1 is a block diagram of an embodiment of the present invention.

【図2】この発明の他の実施例のブロック図である。FIG. 2 is a block diagram of another embodiment of the present invention.

【図3】この発明のさらに他の実施例のブロック図であ
る。
FIG. 3 is a block diagram of still another embodiment of the present invention.

【図4】この発明のその他の実施例のブロック図であ
る。
FIG. 4 is a block diagram of another embodiment of the present invention.

【図5】この発明のさらにその他の実施例のブロック図
である。
FIG. 5 is a block diagram of still another embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 入力音声 2 音声特徴抽出部 3 特徴系列 4 共通符号帳作成部 5 共通符号帳 6 量子化部 7 符号列 8,15 音声区間始終端検出部 9 音声区間の集合 10 出現確率算出部 11 出現確率の集合 12 クラスタ分析部 13 クラスタ 14 音声区間のクラス判別部 16 離散的エルゴードHMM算出部 17 エルゴードHMMパラメータ 18 音声のバックトレース部 19 バックトレース情報 20 音声区間のステート対応部 21 音声区間および雑音区間始終端検出部 23 混合連続分布型エルゴードHMM算出部 1 Input Speech 2 Speech Feature Extraction Section 3 Feature Sequence 4 Common Codebook Creation Section 5 Common Codebook 6 Quantization Section 7 Code Sequence 8 and 15 Speech Section Start / End Detection Section 9 Speech Set 10 Occurrence Probability Calculation Section 11 Appearance Probability 12 cluster analysis unit 13 cluster 14 speech class determination unit 16 discrete ergodic HMM calculation unit 17 ergodic HMM parameter 18 speech backtrace unit 19 backtrace information 20 state correspondence unit for speech segment 21 speech segment and noise segment Edge detector 23 Mixed continuous distribution type ergodic HMM calculator

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 入力された音声から特徴パターンを抽出
する音声特徴抽出手段、 共通符号を作成する共通符号帳作成手段、 前記音声特徴抽出手段によって抽出された特徴パターン
を前記共通符号帳作成手段によって作成された共通符号
で量子化する量子化手段、 複数の音声区間に対して、前記共通符号の出現確率を算
出する出現確率算出手段、 前記出現確率算出手段によって算出された出現確率をク
ラスタ分析するクラスタ分析手段、および前記クラスタ
分析手段で分析されたそれぞれのクラスタに属する出現
確率を検出し、その出現確率に対応する音声区間を同定
する同定手段を備えた、音声中の複数話者の発話区間自
動検出同定装置。
1. A voice feature extracting means for extracting a feature pattern from input voice, a common codebook producing means for producing a common code, and a feature pattern extracted by the voice feature extracting means by the common codebook producing means. Quantization means for quantizing with the created common code, appearance probability calculation means for calculating the appearance probability of the common code with respect to a plurality of speech sections, and cluster analysis of the appearance probabilities calculated by the appearance probability calculation means A utterance section of a plurality of speakers in a voice, which includes a cluster analysis unit and an identification unit that detects an appearance probability belonging to each cluster analyzed by the cluster analysis unit and identifies a voice section corresponding to the appearance probability. Automatic detection and identification device.
【請求項2】 前記複数の音声区間の始終端は、予め定
められていることを特徴とする、請求項1の音声中の複
数話者の発話区間自動検出同定装置。
2. The apparatus for automatically detecting and identifying utterance sections of a plurality of speakers in a voice according to claim 1, wherein the start and end points of the plurality of voice sections are predetermined.
【請求項3】 前記複数の音声区間の始終端は自動的に
検出されることを特徴とする、請求項1の音声中の複数
話者の発話区間自動検出同定装置。
3. The apparatus for automatically detecting and identifying utterance sections of a plurality of speakers in a voice according to claim 1, wherein the start and end of the plurality of voice sections are automatically detected.
【請求項4】 前記クラスタ分析手段は、話者数が予め
与えられていない場合に、話者数を自動的に決定するこ
とを特徴とする、請求項1〜3のいずれかの音声中の複
数話者の発話区間自動検出同定装置。
4. The cluster analyzing means automatically determines the number of speakers when the number of speakers is not given in advance. Multi-speaker utterance section automatic detection and identification device.
【請求項5】 前記出現確率算出手段は、話者に独立な
雑音区間に対応する雑音クラスタを有する音声中の複数
話者の発話区間の出現確率を算出する、請求項1〜4の
いずれかの音声中の複数話者の発話区間自動検出同定装
置。
5. The appearance probability calculation means calculates the appearance probability of a speech section of a plurality of speakers in a voice having a noise cluster corresponding to a speaker-independent noise section. Device for automatic detection and identification of utterance intervals of multiple speakers in a voice.
【請求項6】 入力された音声から特徴パターンを抽出
する音声特徴抽出手段、 共通符号を作成する共通符号帳作成手段、 前記音声特徴抽出手段によって抽出された特徴パターン
を前記共通符号帳作成手段によって作成された共通符号
で量子化する量子化手段、 予め与えられた初期値を基にエルゴード隠れマルコフモ
デルの状態における符号の出現確率,遷移確率および初
期状態確率を更新する更新手段、 前記更新手段による更新の停止条件を判定する判定手
段、および前記得られたエルゴード隠れマルコフモデル
を用いて音声を復号化する手段を備えた、音声中の複数
話者の発話区間自動検出同定装置。
6. A voice feature extracting means for extracting a feature pattern from input voice, a common codebook producing means for producing a common code, and a feature pattern extracted by the voice feature extracting means by the common codebook producing means. Quantizing means for quantizing with the created common code, updating means for updating the appearance probability, transition probability and initial state probability of the code in the state of the ergodic hidden Markov model based on a given initial value, by the updating means A device for automatically detecting and identifying a utterance section of a plurality of speakers in a voice, comprising: a determining unit that determines a stop condition for updating; and a unit that decodes the voice using the obtained Ergodic hidden Markov model.
【請求項7】 入力された音声から特徴パターンを抽出
する音声特徴抽出手段、 予め与えられた初期値を基に混合連続分布型エルゴード
隠れマルコフモデルの状態における音声特徴量の出現確
率,分岐確率,遷移確率および初期状態確率を更新する
更新手段、 前記更新手段による更新の停止条件を判定する判定手
段、および前記得られた混合連続分布型エルゴード隠れ
マルコフモデルを用いて音声を復号化する手段を備え
た、音声中の複数話者の発話区間自動検出同定装置。
7. A voice feature extracting means for extracting a feature pattern from an input voice, the appearance probability of voice features in a state of a mixed continuous distribution ergodic hidden Markov model, a branch probability, based on an initial value given in advance. Update means for updating the transition probabilities and initial state probabilities, judging means for judging the update stop condition by the updating means, and means for decoding speech using the obtained continuous continuous distribution type ergodic hidden Markov model In addition, a device for automatic detection and identification of utterance intervals of multiple speakers in a voice.
JP4231157A 1992-08-31 1992-08-31 A device for automatic detection and identification of utterance intervals of multiple speakers in speech Expired - Lifetime JPH071438B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4231157A JPH071438B2 (en) 1992-08-31 1992-08-31 A device for automatic detection and identification of utterance intervals of multiple speakers in speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4231157A JPH071438B2 (en) 1992-08-31 1992-08-31 A device for automatic detection and identification of utterance intervals of multiple speakers in speech

Publications (2)

Publication Number Publication Date
JPH0683384A true JPH0683384A (en) 1994-03-25
JPH071438B2 JPH071438B2 (en) 1995-01-11

Family

ID=16919198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4231157A Expired - Lifetime JPH071438B2 (en) 1992-08-31 1992-08-31 A device for automatic detection and identification of utterance intervals of multiple speakers in speech

Country Status (1)

Country Link
JP (1) JPH071438B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002236494A (en) * 2001-02-09 2002-08-23 Denso Corp Speech section discrimination device, speech recognition device, program and recording medium
CN111429935A (en) * 2020-02-28 2020-07-17 北京捷通华声科技股份有限公司 Voice speaker separation method and device
WO2021156946A1 (en) * 2020-02-04 2021-08-12 三菱電機株式会社 Voice separation device and voice separation method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6392950B1 (en) * 2017-08-03 2018-09-19 ヤフー株式会社 Detection apparatus, detection method, and detection program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002236494A (en) * 2001-02-09 2002-08-23 Denso Corp Speech section discrimination device, speech recognition device, program and recording medium
WO2021156946A1 (en) * 2020-02-04 2021-08-12 三菱電機株式会社 Voice separation device and voice separation method
CN111429935A (en) * 2020-02-28 2020-07-17 北京捷通华声科技股份有限公司 Voice speaker separation method and device
CN111429935B (en) * 2020-02-28 2023-08-29 北京捷通华声科技股份有限公司 Voice caller separation method and device

Also Published As

Publication number Publication date
JPH071438B2 (en) 1995-01-11

Similar Documents

Publication Publication Date Title
EP2048656B1 (en) Speaker recognition
EP0691022B1 (en) Speech recognition with pause detection
US5025471A (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
CA2060591C (en) Speaker-independent label coding apparatus
KR100766761B1 (en) Method and apparatus for configuring voice templates for speaker-independent voice recognition system
EP0788090A2 (en) Transcription of speech data with segments from acoustically dissimilar environments
JPH11511567A (en) Pattern recognition
US8069039B2 (en) Sound signal processing apparatus and program
EP1355295A2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP3298858B2 (en) Partition-based similarity method for low-complexity speech recognizers
JP5050698B2 (en) Voice processing apparatus and program
JPH0792988A (en) Audio detection device and video switching device
JPH0683384A (en) A device for automatic detection and identification of utterance intervals of multiple speakers in speech
JP3092788B2 (en) Speaker recognition threshold setting method and speaker recognition apparatus using the method
EP1063634A2 (en) System for recognizing utterances alternately spoken by plural speakers with an improved recognition accuracy
KR100391123B1 (en) speech recognition method and system using every single pitch-period data analysis
EP0177854B1 (en) Keyword recognition system using template-concatenation model
JP3036509B2 (en) Method and apparatus for determining threshold in speaker verification
JPH11249688A (en) Speech recognition apparatus and method
KR100304665B1 (en) Apparatus and method of speech recognition using pitch-wave feature
JP4807261B2 (en) Voice processing apparatus and program
JP3207378B2 (en) Voice recognition method
Charnvivit et al. F0 feature extraction by polynomial regression function for monosyllabic Thai tone recognition.
JPH05249987A (en) VOICE DETECTION METHOD AND VOICE DETECTION DEVICE
EP1488410A1 (en) Pattern recognition

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19950711

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080111

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090111

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100111

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 16

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 17

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130111

Year of fee payment: 18

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130111

Year of fee payment: 18