WO2005098820A1 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
WO2005098820A1
WO2005098820A1 PCT/JP2005/005052 JP2005005052W WO2005098820A1 WO 2005098820 A1 WO2005098820 A1 WO 2005098820A1 JP 2005005052 W JP2005005052 W JP 2005005052W WO 2005098820 A1 WO2005098820 A1 WO 2005098820A1
Authority
WO
WIPO (PCT)
Prior art keywords
noise
parameter
speech recognition
model
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2005/005052
Other languages
English (en)
French (fr)
Inventor
Hajime Kobayashi
Soichi Toyama
Yasunori Suzuki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Priority to EP05721202A priority Critical patent/EP1732063A4/en
Priority to US11/547,322 priority patent/US7813921B2/en
Priority to JP2006511980A priority patent/JP4340686B2/ja
Publication of WO2005098820A1 publication Critical patent/WO2005098820A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Definitions

  • the present invention relates to, for example, a voice recognition device and a voice recognition method for recognizing an uttered voice.
  • the clustering process is performed so that a plurality of similar distributions are assigned to the same duplication, and a predetermined number of clusters are generated. Then, a model synthesis process is performed on the center of gravity of each class. For this reason, model synthesis can be performed at a higher speed as compared with generally known model synthesis processing.
  • the amount of computation required for model synthesis processing for one distribution is large.For example, when applied to so-called embedded devices such as car navigation systems, the processing time and equipment Sue There is a possibility that mounting on a device may be difficult due to restrictions on software.
  • noise models for various noise environment categories are prepared in the memory in advance, and a noise model corresponding to the noise environment category of the voice input signal is selected.
  • Noise adaptive processing can be performed.
  • the number of noise environment categories and noise models prepared in advance increases, the amount of memory to store them also increases dramatically, so that it is used in embedded speech recognition devices built into mobile devices and vehicle-mounted devices. Was difficult.
  • Patent Document 1 Japanese Patent Application Laid-Open No. H10-10-161692
  • An example of the problem to be solved by the present invention is to provide a speech recognition device and a speech recognition method in which the function of noise adaptive processing in the speech recognition process is improved and the amount of memory used is reduced.
  • the invention according to claim 1 is a speech recognition device that performs a noise adaptation process based on a noise model on an input speech signal to perform speech recognition on the input speech signal, and is included in each of a plurality of noise environment categories.
  • First storage means for calculating a first parameter representative of a plurality of noise models in advance and storing the calculated first parameters for each noise environment category; and a relative relationship between each of the plurality of noise models and the first parameter.
  • Second storage means for calculating and storing in advance a second parameter representing the position information, and estimating a noise environment category to which the environmental noise belongs based on characteristics of the environmental noise superimposed on the input speech signal.
  • Estimating means, and Selecting means for extracting the first parameter corresponding to the noise environment category from the first storage means; selecting means for extracting; the first parameter extracted by the selecting means; and the second parameter read from the second storage means.
  • a noise adaptation means for performing a noise adaptation process on the input speech signal by using the noise model adapted to the environmental noise.
  • the invention according to claim 7 is a voice recognition method for performing a noise adaptation process based on a noise model on an input voice signal to perform voice recognition on the input voice signal, wherein each of the plurality of noise environment categories Calculating in advance a first parameter representative of a plurality of noise models included in the noise environment category and storing the same in a first memory for each of the noise environment categories; and Calculating in advance a second parameter representing relative position information with respect to evening and storing this in a second memory; based on characteristics of the environmental noise superimposed on the input audio signal, Estimating a noise environment category to which the noise environment category belongs, selecting and extracting the first parameter corresponding to the estimated noise environment category from the first memory, and selecting A noise model suitable for the environmental noise is restored using the extracted first parameter and the second parameter read from the second memory, and the noise model for the input audio signal is restored using the noise model. Performing a process.
  • FIG. 1 is a block diagram showing an example of a speech recognition device according to the present invention.
  • FIG. 2 is a flowchart showing a preparation stage process in the speech recognition apparatus of FIG.
  • FIG. 3 is a schematic diagram showing a configuration of a cruster formed in the process of FIG.
  • FIG. 4 is a configuration diagram showing the contents of the center-of-gravity database storage unit 104 in the voice recognition device of FIG.
  • FIG. 5 is a flowchart showing a process of the voice recognition process in the voice recognition device of FIG.
  • FIG. 6 is an explanatory diagram showing how noise categories are selected in the environment estimation processing of FIG.
  • FIG. 7 is a block diagram showing a second embodiment of the speech recognition apparatus according to the present invention.
  • FIG. 8 is a flowchart illustrating an example of the unsteady parameter exclusion process.
  • FIG. 9 is a diagram of noise parameters showing an example of applying the non-stationary parameter overnight exclusion processing.
  • FIG. 1 shows a speech recognition apparatus according to an embodiment of the present invention.
  • the voice recognition device 10 shown in the figure may have a configuration in which only the device is used alone, for example, or may be built in another device such as a mobile phone or a car navigation device.
  • the configuration may be as follows.
  • the feature parameter overnight extraction unit 101 converts the input speech signal into the speech section and the non-speech sections before and after the speech section, and converts the acoustic signals existing in these sections into acoustic features. This is a part that is converted into feature parameters to be extracted and extracted.
  • the environment estimating unit 102 is a unit that determines an environment category of noise superimposed on the input uttered speech signal based on the feature parameters of the non-speech section.
  • the environmental category of noise is, for example, a model selection in which the noise from the engine corresponds to one noise category, and the noise from the car air conditioner also corresponds to one noise category if the noise is related to automobiles.
  • the extracting unit 103 stores the seed data relating to the noise model included in the category estimated by the environment estimating unit 102 into a centroid database storage unit 104 (hereinafter, simply referred to as a “storage unit 104”). This is the part to be extracted.
  • the noise adaptation processing unit 105 is a part that executes noise adaptation processing by a method such as a Jacobi adaptation method using the various data selected and extracted.
  • the model restoring unit 106 is stored in advance in a difference vector database storage unit 100 (hereinafter simply referred to as “storage unit 107”) based on the result of the noise adaptation processing described above.
  • This is a unit for performing a model restoration process using the difference vector. The details of the various data and the difference vector stored in advance in the storage unit 104 and the storage unit 107 will be described later.
  • the keyword model generation unit 108 is stored in a keyword dictionary storage unit 109 (hereinafter simply referred to as a “memory unit 109”) based on the acoustic model output from the model restoration unit 106. This is the part that extracts recognition candidates from the vocabulary and generates a keyword model as an acoustic pattern.
  • the matching unit 110 applies the feature parameters between utterance segments supplied from the feature parameter extraction unit 101 to each of the keyword models generated by the keyword model generation unit 108, and This is the part that calculates the matching likelihood and performs speech recognition processing on the input uttered speech signal.
  • the arrows indicating the signal flows indicate the direction of each component. It shows the flow of the main signals between them.
  • various signals such as response signals and monitoring signals accompanying such signals include cases where the signals are transmitted in the direction and direction of the arrow.
  • the divisions and signal paths of each component shown in the figure are for convenience of explanation of the operation, and it is not necessary to realize the configuration as described in an actual device.
  • step S201 of FIG. 2 a clustering process for grouping a distribution of acoustic models similar to the input acoustic model (hereinafter referred to as “distribution”) is performed.
  • the number of groups (hereinafter referred to as “clusters”) formed by the clustering process is set in advance, and the clustering process is continued until the number of generated classes reaches such a constant.
  • class information indicating information such as to which cluster each distribution belongs is generated simultaneously with the progress of the clustering process.
  • step S205 the difference force 3 between the distribution of acoustic models belonging to each cluster and the center of gravity in the class is calculated.
  • m (n) is the acoustic model belonging to cluster i
  • g (i) is the center of gravity of the cluster
  • the value of the difference vector calculated in step S205 is stored in the storage unit 107 of the speech recognition device 10.
  • step S207 a predetermined noise model is prepared, and a model synthesis process of this model and the center of gravity of each class obtained in step S203 is performed.
  • the center of gravity of each class after Dell synthesis is stored in the storage unit 104 of the speech recognition device 10 *.
  • a plurality of noise models are prepared for each environmental noise category, and a model synthesis process is performed for each noise ⁇ del. Therefore, as many clusters as the number of noise models subjected to the model synthesis processing are generated from one cluster centroid before the model synthesis processing.
  • FIG. 4 shows how various data obtained by the model synthesis processing in step S207 are stored in the storage unit 104.
  • the storage unit 104 has the following characteristics for each environmental noise category.
  • the three types of data will be stored.
  • predetermined data is stored in advance in the storage unit 104 and the storage unit 107 of the speech recognition apparatus 10 according to the present embodiment.
  • the voice recognition device 10 when an uttered voice signal is input to the voice recognition device 10, the feature parameter overnight conversion process of step S301 shown in FIG. 5 is executed.
  • the feature parameter overnight extraction unit 101 of the speech recognition device 10 utters the input uttered speech signal, including the LPC cepstrum and MFCC (medium Frequency cepstrum coefficient).
  • the type of utterance parameter that is included is not limited to such a case, but is a parameter that expresses the acoustic characteristics of the speech signal, and is the same as the format of these audio parameters. Any acoustic model expressed using parameters can be used in the same way.
  • the feature parameter of the speech section is extracted from the feature parameter extraction unit 101 to the matching unit 110, and the feature parameter of the non-speech section is estimated in the environment. It is supplied to the sections 102 respectively.
  • the environment estimation processing in the next step S303 in order to select a predetermined category from among a plurality of environmental noise categories stored in the storage unit 104, the environment estimation processing is superimposed on the input speech sound.
  • This is a process of estimating the environmental noise to be performed. That is, the environment estimating unit 102 estimates the vote boundary noise of the input utterance signal based on the feature parameters of the non-utterance section, and obtains a noise category corresponding to this.
  • 104 stores noise models that are representative of different environmental noise categories.
  • the environment estimating unit 102 calculates the noise likelihood for each noise category based on these noise models and the special parameters of the non-utterance section.
  • noise models include the mean and covariance of feature parameters calculated using a database of many environmental noise targets. Therefore, the noise likelihood for each environment category can be obtained by fitting the utterance parameters, which are the characteristic parameters of the non-speech interval, to the normal distribution obtained from the mean variance of the noise model. it can.
  • Fig. 6 shows a case where the noise likelihood is obtained by fitting the utterance parameter, which is the characteristic parameter of the non-utterance section, to the normal distribution of three noise models of noise categories 1 to 3. Shown in the example shown in Fig. 6, when the speech parameters indicating the environmental noise of the input speech signal are applied to the noise models of noise categories 13 and 13, the noise likelihood of noise category 2 is higher than the other two. Represents. Therefore, in the figure, noise category 2 is selected as the estimation result of the environmental noise category.
  • the noise model is selected and extracted in the next step S305. That is, the model selection and extraction unit 103 selects various data on the noise category estimated by the environment estimation unit 102 from the database of the storage unit 104 and extracts them.
  • the acoustic model distribution is subjected to clustering processing, and the center of gravity data obtained by synthesizing each cluster centroid with the noise model, the noise model, and the corresponding centroid Data for noise adaptation processing is stored for each category of environmental noise.
  • these data belonging to the selected noise category are loaded from the storage unit 104 to the noise adaptation unit 105.
  • noise adaptation processing is performed by the noise adaptation unit 105.
  • Various techniques can be used for such noise adaptation processing. For example, when performing noise adaptation processing by the Jacobi adaptation method, the Jacobi matrix corresponding to the center of gravity of each class is also stored in advance as a center of gravity data base Store it in 104. Then, at the stage of performing the noise adaptation process in step S307, the Jacobi matrix data of the noise category corresponding to the noise adaptation unit 105 is read from the storage unit 104, and the Jacobi adaptation method is performed using the data.
  • the noise adaptation process is performed by the following.
  • the model restoring unit 106 uses the difference vector data prepared in advance in the storage unit 107. Model restoration processing is performed. By this processing, an acoustic model after noise adaptation is prepared.
  • a keyword model generation process is performed in step S311.
  • the keyword model generation unit 108 extracts a vocabulary that is a candidate for speech recognition from the storage unit 109 and executes a key model generation process for stylizing the vocabulary as an acoustic pattern. I do.
  • matching processing by the matching unit 110 is executed. That is, for each of the keyword models generated by the keyword model generation unit 108, the feature parameters of the utterance section supplied from the feature parameter overnight extraction unit 101 are collated, and matching for each keyword is performed. The keyword likelihood indicating the degree of is calculated. Then, among the keyword likelihoods obtained by such processing, the keyword having the highest value is output from the voice recognition device 10 as a recognition result for the input uttered voice.
  • the amount of used memory can be reduced by converting a set of a plurality of initial synthesis models into a plurality of initial synthesis clusters and storing the converted clusters.
  • Built-in speech recognition device with high adaptive processing capability It is easy to mount it on a container.
  • the difference vector can be shared, and the required configuration can be simplified and the performance can be improved at the same time.
  • the speaker adaptation function is added to the present embodiment and the speaker adaptation is performed using the difference vector, when the content of the center-of-gravity database is upgraded, the speaker characteristics are reflected. This makes it possible to recognize speech in an environment that has been upgraded.
  • FIG. 7 is a block diagram showing a second embodiment of the speech recognition apparatus according to the present invention.
  • parts that are the same as the respective parts of the speech recognition apparatus 10 shown in FIG. 1 are given the same reference numerals, and description thereof will not be repeated.
  • the illustrated speech recognizer 20 is a non-volatile memory provided between the feature parameter extractor 101 and the environment estimator 102 in addition to the components of the speech recognizer 10 shown in FIG. It is characterized in that it has a normal parameter overnight exclusion processing section 111.
  • the non-stationary parameter elimination processing unit 111 selects a set of non-stationary parameters from the set of feature parameters (called a noise set) supplied from the feature parameter extraction unit 101. Perform the exclusion operation.
  • FIG. 8 is a flowchart showing an example of the unsteady parameter overnight removal processing performed by the unsteady parameter overnight removal processing unit 111.
  • the non-stationary parameter overnight exclusion processing unit 111 performs a clustering process of classifying one noise set input in step S401 into a plurality of groups.
  • step S402 the similarity between the centers of gravity between the clusters is obtained.
  • step S403 the one with the lowest similarity in the class It is determined whether the difference is equal to or less than a predetermined threshold.
  • step S404 belongs to the class having the smaller number of elements (indicating the number of feature parameters belonging to the set). Exclude feature parameters. Subsequently, the process proceeds to step S405 to generate an adaptive noise model (corresponding to the environment estimation process in step S303 in FIG. 6). If the similarity is larger than the predetermined threshold value in step S 403, the process proceeds to step S 405 without executing the processing in step S 404.
  • step S405 Following execution of step S405, an environment category selection process (corresponding to the model selection extraction process of step S305 in FIG. 6) is performed in step S406. Next, an application example of the non-stationary parameter overnight exclusion process will be described.
  • Fig. 9 shows a noise set in which noise parameters corresponding to environment A are mixed with noise parameters affected by sudden noise.
  • the environment is determined by calculating the center of gravity of the entire noise set and calculating the similarity between the center of gravity and the noise models representing environment A and environment B. For this reason, as shown in the figure, the center of gravity of the noise set is more similar in the noise model of environment B than in the noise model of environment A, and is erroneously determined as environment B.
  • the noise parameters that are determined to be sudden noise are excluded, and the noise parameters that exclude such noise parameters are excluded.
  • Center of gravity is required.
  • the environmental noise is added to the noise model.
  • data such as a center of gravity value may be calculated based on the accumulated data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Navigation (AREA)

Abstract

音声認識処理における雑音適応処理の機能を向上させ、かつ使用メモリの量を低減させた音声認識装置及び音声認識方法を提供する。予め、音響モデルをクラスタリング処理して各クラスタの重心とその重心と各モデルとの差分ベクトルを算出し、想定される各種雑音モデルと算出した重心とのモデル合成を行って合成された各々の重心と差分ベクトルをメモリに格納する。実際の認識処理において、発話環境推定によって推定された環境に最適な重心を同メモリより抽出して、該抽出された重心に同メモリに記憶された差分ベクトルを用いてモデル復元を行い同モデルにより雑音適応処理を実行する。

Description

明細書
音声認識装置及び音声認識方法
技術分野
本発明は、 例えば、 発話音声を認識する音声認識装置及び音声認識方法等に 関する。 背景技術
音声認識処理の実用性を向上させるためには、 発話音声自体に対する認識 技術の向上みならず、 発話音声に重畳された環境雑音に対する処理技術の向上 が重要となる。 従来、 かかる環境雑音に対する耐性を向上させて音声認識処理 の実用性を高める、 いわゆる維音適応処理技術が開発されており、 例えば、 特 許文献 1や非特許文献 1に示されるような技術が開示されている。 前者の場合は、 音響モデルの分布 (以下、 単に "分布" と言う) を予め決め られた数のグループ (以下 "クラスタ" と言う) で分類する。 具体的には、 類 似した複数の分布が同一のダル一プに割り当てられるようにクラス夕リング処 理を行い、 所定の数だけのクラスタが生成されるようにする。 そして、 各クラ ス夕の重心に対してモデル合成処理を行う。 このため、 一般に知られるモデル合成処理に比較して、 高速度のモデル合成 が可能となる。 しかしながら、 1つの分布に対するモデル合成処理に必要とさ れる演算量が多く、 例えば、 カーナビゲーシヨン装置などのいわゆる組込み機 器へ応用する際に、 その性能維持を前提とすると、 処理時間や機器実装スぺー ス上の制限から機器への実装が困難となるおそれがある。
一方、 後者の場合は、 予め種々の雑音環境カテゴリについて複数の雑音モデ ルをメモリ内に準備しておき、 音声入力信号の雑音環境カテゴリに応じた雑音 モデルを選択して、 雑音環境に応じた雑音適応処理を行うことができる。 しか し、 予め準備する雑音環境カテゴリや雑音モデルの数が増加するとそれを記憶 するメモリ量も飛躍的に増大するので、 携帯機器や車両搭載機器に組み込まれ る組込み型の音声認識装置での利用が困難であった。
【特許文献 1】 特開平 1 0 - 1 6 1 6 9 2
【非特許文献 1】 日本音響学会講演論文集 (1 - 8 - 4 ; 2 0 0 0年 3月) 「雑音環境へのヤコビ適応法の拡張」 (赤江俊彦 他 3名)
発明の開示
本発明が解決しょうとする課題には、 音声認識処理における雑音適応処理の 機能を向上させ、 かつ使用メモリの量を低減させた音声認識装置、 及び音声認 識方法を提供することが一例として挙げられる。
請求項 1に記載の発明は、 入力音声信号について雑音モデルに基づく雑音適 応処理を施して前記入力音声信号に対する音声認識を行う音声認識装置であつ て、 複数の雑音環境カテゴリの各々に含まれる複数の雑音モデルを代表する第 1パラメ一夕を予め算出してこれを前記雑音環境カテゴリ毎に記憶する第 1記 憶手段と、 前記複数の雑音モデルの各々と前記第 1パラメータとの相対的な位 置情報を表す第 2パラメータを予め算出してこれを記憶する第 2記憶手段と、 前記入力音声信号に重畳された環境雑音の特性に基づいて前記環境雑音の属す る雑音環境カテゴリを推定する推定手段と、 前記推定手段によって推定された 雑音環境カテゴリに対応する前記第 1パラメ一夕を前記第 1記憶手段から選択 抽出する選択手段と前記選択手段によって抽出された第 1パラメ一夕と前記第 2記憶手段から読み出した前記第 2パラメータとを用いて前記環境雑音に適合 する雑音モデルを復元し、 これを用いて前記入力音声信号に対する雑音適応処 理を行う雑音適応手段とを含むことを特徴とする。
また、 請求項 7に記載の発明は、 入力音声ィ言号について雑音モデルに基づく 雑音適応処理を施して前記入力音声信号に対する音声認識を行う音声認識方法 であって、 複数の雑音環境カテゴリの各々に含まれる複数の雑音モデルを代表 する第 1パラメータを予め算出してこれを前記雑音環境カテゴリ毎に第 1のメ モリに記憶するステップと、 前記複数の雑音モデルの各々と前記第 1パラメ一 夕との相対的な位置情報を表す第 2パラメータを予め算出してこれを第 2のメ モリに記憶するステップと、 前記入力音声信号に重畳された環境雑音の特性に 基づいて前記環境雑音の属する雑音環境カテゴリを推定するステップと、 該推 定された雑音環境力テゴリに対応する前記第 1パラメ一夕を前記第 1のメモリ から選択抽出するステップと該選択抽出された第 1パラメ一夕と前記第 2のメ モリから読み出した前記第 2パラメータとを用いて前記環境雑音に適合する雑 音モデルを復元し、 これを用いて前記入力音声信号に対する雑音適応処理を行 うステップとを含むことを特徴とする。
図面の簡単な説明
図 1は、 本発明による音声認識装置の実 例を示すブロック図である。 図 2は、 図 1の音声認識装置における準備段階処理の過程を示すフローチ ヤートである。 図 3は、図 2の処理過程で形成されるクラスダの構成を示す模式図である。 図 4は、 図 1の音声認識装置における重心データベース記憶部 1 0 4の内 容を示す構成図である。 図 5は、 図 1の音声認識装置における音声認識処理の過程を示すフローチ ヤー卜である。 図 6は、 図 5の環境推定処理における雑音カテゴリの選択の様子を示す説 明図である。 図 7は、 本発明による音声認識装置の第 2 の実施例を示すブロック図であ る。 図 8は、 非定常パラメータ除外処理の一例を すフローチャートである。 図 9は、 非定常パラメ一夕除外処理を適用例を示す雑音パラメータの図で ある。 発明を実施するための形態
図 1に本発明の実施例である音声認識装置を示す。 同図に示される音声認識 装置 1 0は、 例えば、 同装置のみが単体で用いら^ 1る構成であっても良いし、 或いは、 携帯電話やカーナビゲーシヨン機器等の他の装置に内蔵される構成と しても良い。 図 1において、 特徴パラメ一夕抽出部 1 0 1は、 入力された発話音声信号を 発話区間、 及びその前後の非発話区間を含めて、 これらの区間に存する音響信 号をその音響的特徴を表す特徴パラメ一タに変換して抽出する部分である。 環境推定部 1 0 2は、 非発話区間の特徴パラメータに基づいて、 入力された 発話音声信号に重畳された雑音の環境カテゴリを ½定する部分である。 なお、 雑音の環境カテゴリとは、 例えば、 自動車に関係する雑音の暴合であれば、 ェ ンジンによる雑音が 1つの雑音カテゴリに相当し、 また、 カーエアコンによる 雑音も 1つの雑音カテゴリに相当するモデル選択抽出部 1 0 3 は、 環境推定部 1 0 2で推定されたカテゴリに含まれる雑音モデルに関する 種データを、 重 心データベース記憶部 1 0 4 (以下、 単に "記憶部 1 0 4 " と言う) から選択 抽出する部分である。 また、 雑音適応処理部 1 0 5は、 上記 選択抽出された 各種データを用いて、 例えば、 ヤコビ適応手法などの手法による雑音適応処理 を実行する部分である。
モデル復元部 1 0 6は、 上記の雑音適応処理の結果に基づいて、 差分べクト ルデータベース記憶部 1 0 Ί (以下、 単に "記憶部 1 0 7 " と言う) に予め記 憶されている差分べクトルを用いてモデル復元処理を行う部^である。 なお、 記憶部 1 0 4、 記憶部 1 0 7に予め記憶されている各種データや差分べクトル の詳細については後述する。
キーワードモデル生成部 1 0 8は、 モデル復元部 1 0 6から出力される音響 モデルを基に、 キーワード辞書記憶部 1 0 9 (以下、 単に "言 憶部 1 0 9 " と 言う) にストアされている語彙の中から認識候補となるものを抽出して、 音響 パターンとしてのキーワードモデルを生成する部分である。
マッチング部 1 1 0は、 特徴パラメータ抽出部 1 0 1から 給される発話区 間の特徴パラメ一夕を、 キーワードモデル生成部 1 0 8で生 されたキーヮー ドモデルの各々に当て嵌め、 各々についてのマッチング尤度を求めて、 入力さ れた発話音声信号に対する音声認識処理を行う部分である。
なお、 図 1のブロック図における信号の流を示す矢印の向ぎは、 各構成要素 間の主要な信号の流れを示すものであり、 例えば、 かかる信号に付随する応答 信号や監視信号等の各種信号に関しては、 矢印の向きと 方向に伝達される場 合をも含むものとする。 また、図中に示される各構成要素の区分や信号経路は、 動作説明の便宜上為されているものであり実際の装置に いてかかる表記どお りの構成が実現される必要はない。
次に、 記憶部 1 0 4、 及び記憶部 1 0 7に予め記憶される、 重心データ等の 各種データ、 及び差分べクトルデータの生成処理について説明を行う。
本実施例では、 実施の準備段階として上記の各々のデータを予め生成し、 上 記の各記憶部のメモリ内に準備しておく必要がある。 か^ る準備段階における データ生成処理の様子を、 図 2のフローチャートに基づいて説明する。
先ず、 図 2のステップ S 2 0 1において、 入力された音響モデルに対し類似 した音響モデルの分布 (以下 "分布" と言う) をグループ化するクラスタリン グ処理が行われる。 クラスタリング処理によって形成されるグループ(以下 "ク ラスタ" と言う) の数は予め設定されており、 生成されるクラス夕の数が、 か かる定数に達するまでクラスタリング処理が継続される。 なお、 ステップ S 2 0 1では、 クラスタリング処理の進行と同時に、 各々の分布が何れのクラスタ に属するかなどの情報を示すクラス夕情報が生成される。
次のステップ S 2 0 3において、 各々のクラス夕に属する分布を全て使用し て、 それぞれのクラスタにおける重心計算が行われる。 重心計算の処理を具体 的に示せば、 1つのクラスタ iに属する音響モデルを m (n ( n = l, 2 , …, p : pはクラス夕 iに属する
音響モデルの個数)、 計算により算出される重心を g ( i ) とすると、 重心 g ( i ) は、
【式 1】
Figure imgf000009_0001
として求められる。
ステップ S 203の処理が終了すると、 次のステップ S 205において、 各 クラスタに属する音響モデルの分布と、 クラス夕における重心との差分力3、計算 される。 具体的には、 クラスタ iに属する音響モデルを m(n)、 クラスタの重 心を g(i)、 及び差分を表す差
分ベクトルを d(n) とすると、 差分べクトル d (n) は、
d (n) = nun) - g ( iノ
として求めることができる。
ステップ S 205において算出された差分べクトルの値は、 音声認識装置 1 0の記憶部 107に格納される。なお、 クラス夕 iに含まれる各々の分布 iri(n) と、 クラス夕の重
心 g(i)、 及び差分ベクトル d(n) との相互関係を、 図 3のクラスタ構造の模 式図に示す。
次に、 ステップ S 207において所定の雑音モデルを用意し、 これとステツ プ S 203で求めた各クラス夕の重心とのモデル合成処理が行われる。 デル 合成後の各クラス夕の重心は、音声認識装置 10の記憶部 104に格納さ * る。 本実施例では、 環境雑音カテゴリ毎に雑音モデルを複数準備して、 各雑音 ΐτ デルに対してモデル合成処理が行われる。 それ故、 モデル合成処理前の 1つ クラスタ重心から、 モデル合成処理に供された雑音モデルの個数分の合成後ク ラスタが生成される。
なお、ステップ S 2 0 7のモデル合成処理によって求められた各種データが、 記憶部 1 0 4の内部に格納される様子を図 4に示す。 同図に示される如く、 言 £ 憶部 1 0 4では各々の環境雑音カテゴリ毎に
(1) 1つの雑音モデル
(3) 1つの音響モデルに対して、 図 2に示される処理を施すことによって 得られるクラス夕の重心
(2) 雑音適応部 1 0 5における雑音適応処理に必要とされる、 各クラスタ の重心に対応する情報
の 3種類のデ一夕が格納されることになる。
以上に説明した準備段階の処理によって、 本実施例に基づく音声認識装置 1 0の、 記憶部 1 0 4、 及び記憶部 1 0 7には、 それぞれ所定のデータが予め格 納される。
次に、 音声認識装置 1 0による、 発話音声の音声認識処理時における動作に ついて、 図 1のブロック図、 及び図 5のフローチャートに基づいて説明を行う。 先ず、 音声認識装置 1 0に発話音声信号が入力されると、 図 5に示されるス テツプ S 3 0 1の特徴パラメ一夕変換処理が実行される。 すなわち、 音声認 ¾ 装置 1 0の特徴パラメ一夕抽出部 1 0 1は、 入力された発話音声信号を発話!^ 間、 及びその前後の非発話区間を含めて、 L P Cケプストラムや M F C C (メ ル周波数ケプストラム係数) などの発話パラメータに変換する。 なお、 厢いら れる発話パラメ一夕の種類は、 かかる事例に限定されるものではなく、 話信 号の音響的特徴を表現したパラメ一夕であり、 かつこれらの音響パラメ一夕の フォーマットと同じパラメ一夕を用いて表現された音響モデルであれば同様に 用いることが可能である。
ステップ S 3 0 1の特徴パラメータ変換処理が為されると、 特徴パラ 一夕 抽出部 1 0 1から、 発話区間の特徴パラメータがマッチング部 1 1 0に、 非発 話区間の特徴パラメータが環境推定部 1 0 2にそれぞれ供給される。
次のステップ S 3 0 3の環境推定処理は、 記憶部 1 0 4に格納されてレゝる複 数の環境雑音カテゴリの中から所定のカテゴリを選択するため、 入力された発 話音声に重畳される環境雑音を推定する処理である。 すなわち、 環境推定部 1 0 2は、 非発話区間の特徴パラメ一夕に基づいて入力された発話信号の票境雑 音を推定し、 これに該当する雑音カテゴリを求める。 前述した如く、 記' | 部 1 0 4のデータベースには、 異なる環境雑音のカテゴリの代表にあたる雑音モデ ルが記憶されている。
環境推定部 1 0 2は、 先ず、 これらの雑音モデルと、 上記の非発話区 Γ の特 徵パラメ一夕に基づいて、 各雑音カテゴリ毎の雑音尤度を算出する。
これらの雑音モデルには、 ターゲットとされる多数の環境雑音のデータべ一 スを利用して計算された特徴パラメータの平均値や共分散が含まれている。 し たがって、 各環境カテゴリ毎の雑音尤度は、 雑音モデルの平均 '分散から得ら れる正規分布に、 上記非発話区間の特徴パラメ一夕である発話パラメータを当 て嵌めることによって求めることができる。 かかる事例として、雑音カテゴリ 1乃至 3の 3つの雑音モデルの正規分布に、 上記非発話区間の特徴パラメ一夕である発話パラメ一夕を当て嵌めて、 雑音尤 度を求める場合の事例を図 6に示す。 図 6の事例では、 雑音カテゴリ 1一 3の 雑音モデルに、 入力発話信号の環境雑音を示す発話パラメータを当て嵌めたと き、 雑音カテゴリ 2の雑音尤度が他の 2つ比較して高いことを表している。 そ れ故、 同図においては、 環境雑音カテゴリの推定結果として雑音カテゴリ 2が 選択されることになる。
ステップ S 3 0 3の環境推定処理によって、 入力発話音声に重畳された環境 雑音のカテゴリが推定されると、 次のステップ S 3 0 5において雑音モデルの 選択抽出処理が行われる。 すなわち、 モデル選択抽出部 1 0 3は、 環境推定部 1 0 2によって推定された雑音カテゴリに関する各種のデータを、 記憶部 1 0 4のデータべ一ス中から選択してこれを抽出する。
図 4に示される如く、 記憶部 1 0 4のデータベースには、 音響モデルの分布 をクラスタリング処理し、 それぞれのクラスタ重心を雑音モデルで合成した重 心データ、 当該雑音モデル、及び各重心に対応する雑音適応処理用のデータが、 各々の環境雑音のカテゴリ毎に格納されている。 ステップ S 3 0 5において、 選択された雑音カテゴリに属するこれらのデータが、 記憶部 1 0 4から雑音適 応部 1 0 5にロードされることになる。
そして、 次のステップ S 3 0 7において、 雑音適応部 1 0 5による雑音適応 処理が実行される。 かかる雑音適応処理には、 種々の手法を用いることが可能 である。 例えば、 ヤコビ適応手法による雑音適応処理を行う際には、 各クラス 夕の重心に対応するヤコビ行列についても予め重心データべ一スとして記憶部 1 0 4に格納して置く。 そして、 ステップ S 3 0 7における雑音適応処理を行 う段階において、 記憶部 1 0 4から雑音適応部 1 0 5に該当する雑音カテゴリ のヤコビ行列データを読み出し、 かかるデータを使用してヤコビ適応手法によ る雑音適応処理を行う。
ステップ S 3 0 7の雑音適応処理が終了すると、 次のステップ S 3 0 9にお いて、 予め記憶部 1 0 7に準備しておいた差分ベクトルのデータを用い、 モデ ル復元部 1 0 6によるモデル復元処理が行われる。 かかる処理によって雑音適 応後の音響モデルが準備される。
その後、ステップ S 3 1 1においてキーワードモデル生成処理が実行される。 同処理において、 キーワードモデル生成部 1 0 8は、 音声認識の認識候補とな る語彙を記憶部 1 0 9から抽出して、 これを音響パターンとして定型化するキ —ヮ一ドモデル生成処理を実行する。
次の、 ステップ S 3 1 3では、 マッチング部 1 1 0によるマッチング処理が 実行される。 すなわち、 キーワードモデル生成部 1 0 8において生成されたキ 一ワードモデルの各々に対して、 特徴パラメ一夕抽出部 1 0 1から供給される 発話区間の特徴パラメータが照合され、 各々のキーワードに対するマッチング の度合いを示すキ一ワード尤度が算出される。 そして、 かかる処理によって求 められたキーワード尤度のうちで、 最も高い値を示すキーワードが、 入力され た発話音声に対する認識結果として、 音声認識装置 1 0から出力される。
以上に説明したように、 本実施例によれば、 複数の初期合成モデルのセット を複数の初期合成クラスタに変換して記憶することによつて使用メモリの使用 量を削減することができ、 雑音適応処理能力の高い音声認識装置を組み込み機 器への搭載することが容易となる。 また、 準備段階におけるクラスタリングを モデル合成を行う前に実施するので差分べクトルを共用化することが可能とな り、 必要とされる構成の簡易化と性能向上を同時に達成することができる。 また、 本実施例に話者適応機能を追加して、 かつ話者適応を差分ベクトルで 行う構成とした場合、 重心データベースの内容をグレードアップする際に、 発 話者の特徴を反映させた状態でグレードアップされた環境での発話認識が可能 となる。
図 7は、本発明による音声認識装置の第 2の実施例を示すブロック図である。 図において、 図 1に示された音声認識装置 1 0の各構成部分と同一の部分に は同様の参照番号を付し、 説明は繰り返さない。
図示された音声認識装置 2 0は図 1に示された音声認識装置 1 0の各構成部 分に加えて特徴パラメータ抽出部 1 0 1と環境推定部 1 0 2との間に設けられ た非定常パラメ一夕除外処理部 1 1 1を有することが特徴である。
非定常パラメータ除外処理部 1 1 1は、 特徴パラメ一夕抽出部 1 0 1から供 給される特徴パラメ一夕の集合 (雑音集合と称する) の中から非定常パラメ一 夕に該当するものを除外する動作を行う。
図 8は、 非定常パラメ一夕除外処理部 1 1 1によって行われる非定常パラメ 一夕除外処理の一例を示すフロー図である。
図示の如く、 非定常パラメ一夕除外処理部 1 1 1はステップ S 4 0 1におい て入力された 1 つの雑音集合を複数のグループに分類するクラスタリング処理 を行う。 次に、 ステップ S 4 0 2において各クラスタ間の重心間類似度を求め る。 続いて、 ステップ S 4 0 3においてクラス夕間の類似度の最も低いものが 所定の閾値以下であるか否かが判別される。
ステップ S 4 0 3において類似度が所定の閾値以下であれば、 処理はステツ プ S 4 0 4に進み要素数 (集合に属する特徴パラメ一夕の数を指す) の少ない 方のクラス夕に属する特徴パラメータを除外する。 続いて処理はステップ S 4 0 5に進み適応雑音モデルの生成 (図 6のステップ S 3 0 3の環境推定処理に 対応) を行う。 またステップ S 4 0 3において類似度が所定の閾値より大であ れば、 ステップ S 4 0 4の処理は実行せずにステップ S 4 0 5に進む。
ステップ S 4 0 5の実行に続いてステップ S 4 0 6において環境カテゴリ選 択処理 (図 6のステップ S 3 0 5のモデル選択抽出処理に対応) が行われる。 次に、 非定常パラメ一夕除外処理の適用例について説明する。
図 9は、 環境 Aに該当する雑音パラメ一夕に突発性雑音の影響を受けた雑音 パラメ一夕が混在する雑音集合を示している。
非定常パラメ一夕除外処理を実行しない場合には雑音集合全体に対する重心 を求め、 この重心と環境 A、 環境 Bをそれぞれあらわす雑音モデルとの類似度 を求めることにより環境判別が行われる。 このため、 図示の如く突発性雑音の 影響を受け、 雑音集合の重心は環境 Aの雑音モデルよりも環境 Bの雑音モデル の方が類似性が高くなり、 環境 Bとして誤判定されてしまう。
一方、 第 2 の実施例の如く、 非定常パラメ一夕除外処理を実行する場合には 突発性雑音と判断される雑音パラメ一夕が除外され、 かかる雑音パラメ一夕を 除外した雑音パラメ一夕の重心が求められる。 これにより。 求められた重心と 環境 Aの雑音モデルとの類似度が高くなり、 環境カテゴリをより適切に選択す ることが可能となる。 このように非定常パラメ一タ除外処理を行うことにより音声認識の性能 ¾r向 上させることができる。
なお、 上記の第 1及び第 2の実施例において、 発話音声入力に重畳され广こ環 境雑音が予め準備された雑音モデルに該当しない場合は、 この環境雑音を、 例 えば、 H D D等の別記憶媒体に所定期間蓄積した後、 かかる蓄積データを基に してこれに対する重心値等のデータを算出するようにしても良い。 これに つ て、 重心データベースにおける新たな雑音カテゴリを環境に合わせて増加ざせ ることが可能となる。
さらに、 通信ネットワークを介して大規模なデ一夕べ一スを擁するサ一ノヾー とデータの授受を行う通信手段を設けることにより、 重心データベースや差分 べクトルデータベースのメモリの一部若しくは全部を、 これらのサーバー (^デ —夕ベースに置き換えるようにしても良い。

Claims

請求の範囲
【請求項 1】
入力音声信号について雑音モデルに基づく雑音適応処理を施して前記入力音 声信号に対する音声認識を行う音声認識装置であって、
複数の雑音環境カテゴリの各々に含まれる複数の雑音モデルを代表する第 1 パラメ一夕を予め算出してこれを前記雑音環境カテゴリ毎に記憶する第 1記憶 手段と、
前記複数の雑音モデルの各々と前記第 1パラメータとの相対的な位置情報を 表す第 2パラメ一夕を予め算出してこれを記憶する第 2記憶手段と、
前記入力音声信号に重畳された環境雑音の特性に基づいて前記環境雑音の属 する雑音環境カテゴリを推定する推定手段と、
前記推定手段によつて推定された雑音環境カテゴリに対応する前記第 1パラ メータを前記第 1記憶手段から選択抽出する選択手段と
前記選択手段によって抽出された第 1パラメータと前記第 2記憶手段から読 み出した前記第 2パラメ一夕とを用いて前記環境雑音に適合する雑音モデルを 復元し、 これを用いて前記入力音声信号に対する雑音適応処理を行う雑音適応 手段と、 を含むことを特徴とする音声認識装置。
【請求項 2】
前記第 1パラメータは、 音響モデルについてクラスタリング処理を施して得 られる重心値と 1つの雑音環境カテゴリに含まれる複数の雑音モデルの各々に 対して施されたモデル合成処理によって得られる前記雑音モデル毎の重心値、 及びこれに付随するデータであることを特徴とする請求項 1に記載の音声認識 装置。
【請求項 3】
前記入力音声信号に重畳された環境雑音の特徴パラメータの集合の中から非 定常パラメータを除外する非定常パラメ一夕除外処理部を更に することを特 徴とする請求項 1に記載の音声認識装置。
【請求項 4】
前記クラスタリング処理は、 当該処理によって形成される音響モデルのダル ープ数が所定のグループ数に到達するまで継続されることを特黻とする請求項 2に記載の音声認識装置。
【請求項 5】
前記第 2パラメ一夕は、 前記重心値と前記複数の雑音モデルの各々との間に おける差分べクトルであることを特徴とする請求項 2乃至 4の ずれか 1項に 記載の音声認識装置。
【請求項 6】
前記推定手段は、 前記環境雑音が予め準備された雑音環境カテゴリに該当し ないことを検知した場合に、 前記環境雑音から前記第 1パラメ一夕を抽出して これを前記第 1記憶手段に追加して記憶する記憶追加手段、 をざらに含むこと を特徴とする請求項 1ないし 5のいずれか 1項に記載の音声認識裝置。
【請求項 7】
通信ネットワークを介してデータべ一スを含むサーバ一と前言己第 1及び第 2 記憶手段に含まれるメモリとの間におけるデ一夕を中継する通脣手段をさらに 含み、 前記データベースを前記メモリの一部若しくは全部として利用すること を特徴とする請求項 1ないし 6のいずれか 1項に記載の音声認識装置。
【請求項 8】
入力音声信号について雑音モデルに基づく雑音適応処理を施して前記入力 声信号に対する音声認識を行う音声認識方法であつて、
複数の雑音環境カテゴリの各々に含まれる複数の雑音モデルを代表する第 1 パラメ一夕を予め算出してこれを前記雑音環境カテゴリ毎に第 1のメモリに言己 憶するステップと、
前記複数の雑音モデルの各々と前記第 1パラメータとの相対的な位置情報 表す第 2パラメ一夕を予め算出してこれを第 2のメモリに記憶するステップと、 前記入力音声信号に重畳された環境雑音の特性に基づいて前記環境雑音の屑 する雑音環境カテゴリを推定するステップと、
該推定された雑音環境カテゴリに対応する前記第 1パラメータを前記第 1 メモリから選択抽出するステップと
該選択抽出された第 1パラメータと前記第 2のメモリから読み出した前記第 2パラメ一夕とを用いて前記環境雑音に適合する雑音モデルを復元し、 これを 用いて前記入力音声信号に対する雑音適応処理を行うステップと、 を含むこと を特徴とする音声認識方法。
【請求項 9】
前記入力音声信号に重畳された環境雑音の特徴パラメータの集合の中から 定常パラメータを除外するステップを更に有することを特徴とする請求項 8 に 記載の音声認識方法。
PCT/JP2005/005052 2004-03-31 2005-03-15 音声認識装置及び音声認識方法 Ceased WO2005098820A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP05721202A EP1732063A4 (en) 2004-03-31 2005-03-15 LANGUAGE RECOGNITION AND LANGUAGE RECOGNITION METHOD
US11/547,322 US7813921B2 (en) 2004-03-31 2005-03-15 Speech recognition device and speech recognition method
JP2006511980A JP4340686B2 (ja) 2004-03-31 2005-03-15 音声認識装置及び音声認識方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004102904 2004-03-31
JP2004-102904 2004-03-31

Publications (1)

Publication Number Publication Date
WO2005098820A1 true WO2005098820A1 (ja) 2005-10-20

Family

ID=35125309

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/005052 Ceased WO2005098820A1 (ja) 2004-03-31 2005-03-15 音声認識装置及び音声認識方法

Country Status (4)

Country Link
US (1) US7813921B2 (ja)
EP (1) EP1732063A4 (ja)
JP (1) JP4340686B2 (ja)
WO (1) WO2005098820A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216618A (ja) * 2007-03-05 2008-09-18 Fujitsu Ten Ltd 音声判別装置
WO2008126347A1 (ja) * 2007-03-16 2008-10-23 Panasonic Corporation 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路
CN103826080A (zh) * 2012-11-16 2014-05-28 杭州海康威视数字技术股份有限公司 对硬盘录像机进行批量升级的方法及系统
US8996373B2 (en) 2010-12-27 2015-03-31 Fujitsu Limited State detection device and state detecting method

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
JP4640463B2 (ja) * 2008-07-11 2011-03-02 ソニー株式会社 再生装置、表示方法および表示プログラム
US8234111B2 (en) * 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition
US8635067B2 (en) 2010-12-09 2014-01-21 International Business Machines Corporation Model restructuring for client and server based automatic speech recognition
US9406299B2 (en) * 2012-05-08 2016-08-02 Nuance Communications, Inc. Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
US9401140B1 (en) * 2012-08-22 2016-07-26 Amazon Technologies, Inc. Unsupervised acoustic model training
US20140278415A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Voice Recognition Configuration Selector and Method of Operation Therefor
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
KR20170044849A (ko) * 2015-10-16 2017-04-26 삼성전자주식회사 전자 장치 및 다국어/다화자의 공통 음향 데이터 셋을 활용하는 tts 변환 방법
US11094316B2 (en) * 2018-05-04 2021-08-17 Qualcomm Incorporated Audio analytics for natural language processing
CN112201270B (zh) * 2020-10-26 2023-05-23 平安科技(深圳)有限公司 语音噪声的处理方法、装置、计算机设备及存储介质
CN119541519B (zh) * 2025-01-20 2025-04-29 浙江华消科技有限公司 一种救援机器人的语音识别方法、装置和一种救援机器人

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258765A (ja) * 1996-03-25 1997-10-03 Kokusai Denshin Denwa Co Ltd <Kdd> 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法
JPH10149191A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> モデル適応方法、装置およびその記憶媒体
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
JP2002014692A (ja) * 2000-06-28 2002-01-18 Matsushita Electric Ind Co Ltd 音響モデル作成装置及びその方法
JP2002091485A (ja) * 2000-09-18 2002-03-27 Pioneer Electronic Corp 音声認識システム
JP2002330587A (ja) * 2001-05-07 2002-11-15 Sony Corp 商用電源の整流回路
JP2003330484A (ja) * 2002-05-17 2003-11-19 Pioneer Electronic Corp 音声認識装置及び音声認識方法
EP1400952A1 (en) * 2002-09-18 2004-03-24 Pioneer Corporation Speech recognition adapted to environment and speaker

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
FR2765715B1 (fr) * 1997-07-04 1999-09-17 Sextant Avionique Procede de recherche d'un modele de bruit dans des signaux sonores bruites
US6188982B1 (en) * 1997-12-01 2001-02-13 Industrial Technology Research Institute On-line background noise adaptation of parallel model combination HMM with discriminative learning using weighted HMM for noisy speech recognition
JP3434730B2 (ja) 1999-05-21 2003-08-11 Necエレクトロニクス株式会社 音声認識方法および装置
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
DE10017646A1 (de) * 2000-04-08 2001-10-11 Alcatel Sa Geräuschunterdrückung im Zeitbereich
US7089182B2 (en) * 2000-04-18 2006-08-08 Matsushita Electric Industrial Co., Ltd. Method and apparatus for feature domain joint channel and additive noise compensation
US6741873B1 (en) * 2000-07-05 2004-05-25 Motorola, Inc. Background noise adaptable speaker phone for use in a mobile communication device
DE10041456A1 (de) * 2000-08-23 2002-03-07 Philips Corp Intellectual Pty Verfahren zum Steuern von Geräten mittels Sprachsignalen, insbesondere bei Kraftfahrzeugen
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
US6859420B1 (en) * 2001-06-26 2005-02-22 Bbnt Solutions Llc Systems and methods for adaptive wind noise rejection
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6937980B2 (en) * 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
JP2003308091A (ja) * 2002-04-17 2003-10-31 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム
US7047047B2 (en) * 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
JP2004325897A (ja) * 2003-04-25 2004-11-18 Pioneer Electronic Corp 音声認識装置及び音声認識方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258765A (ja) * 1996-03-25 1997-10-03 Kokusai Denshin Denwa Co Ltd <Kdd> 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法
JPH10149191A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> モデル適応方法、装置およびその記憶媒体
JPH10161692A (ja) * 1996-12-03 1998-06-19 Canon Inc 音声認識装置及び音声認識方法
JP2002014692A (ja) * 2000-06-28 2002-01-18 Matsushita Electric Ind Co Ltd 音響モデル作成装置及びその方法
JP2002091485A (ja) * 2000-09-18 2002-03-27 Pioneer Electronic Corp 音声認識システム
JP2002330587A (ja) * 2001-05-07 2002-11-15 Sony Corp 商用電源の整流回路
JP2003330484A (ja) * 2002-05-17 2003-11-19 Pioneer Electronic Corp 音声認識装置及び音声認識方法
EP1400952A1 (en) * 2002-09-18 2004-03-24 Pioneer Corporation Speech recognition adapted to environment and speaker

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AKAE ET AL.: "Zatsuon Kankyo eno Jacobi Tekioho no Kakucho.", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) KOEN RONBUNSHU, vol. 1, 15 March 2000 (2000-03-15), pages 7 - 8, XP008082904 *
IDA ET AL.: "Zatsuon DB to Model Tekioa o Mochiita HMM Goseiho ni okeru Zatsuon Hendo Taisei no Hyoka.", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) KOEN RONBUNSHU, vol. 1, 2 October 2001 (2001-10-02), pages 33 - 34, XP008082930 *
NOGUCHI ET AL.: "1 Channel Nyuryoku Shingochu no Toppatsusei Zatsuon no Hanbetsu to Jokyo.", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) KOEN RONBUNSHU, vol. 1, 17 March 2004 (2004-03-17), pages 655 - 656, XP008082931 *
See also references of EP1732063A4 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216618A (ja) * 2007-03-05 2008-09-18 Fujitsu Ten Ltd 音声判別装置
WO2008126347A1 (ja) * 2007-03-16 2008-10-23 Panasonic Corporation 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路
JP5038403B2 (ja) * 2007-03-16 2012-10-03 パナソニック株式会社 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路
US8478587B2 (en) 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
US8996373B2 (en) 2010-12-27 2015-03-31 Fujitsu Limited State detection device and state detecting method
CN103826080A (zh) * 2012-11-16 2014-05-28 杭州海康威视数字技术股份有限公司 对硬盘录像机进行批量升级的方法及系统

Also Published As

Publication number Publication date
EP1732063A4 (en) 2007-07-04
US20080270127A1 (en) 2008-10-30
US7813921B2 (en) 2010-10-12
EP1732063A1 (en) 2006-12-13
JPWO2005098820A1 (ja) 2008-02-28
JP4340686B2 (ja) 2009-10-07

Similar Documents

Publication Publication Date Title
US7660717B2 (en) Speech recognition system and program thereof
JP4590692B2 (ja) 音響モデル作成装置及びその方法
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN1329883C (zh) 语音模型的噪声适应系统及方法
JP4340686B2 (ja) 音声認識装置及び音声認識方法
JP3836815B2 (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
US6182036B1 (en) Method of extracting features in a voice recognition system
CN1726532A (zh) 基于传感器的语音识别器选择、自适应和组合
CN101548313A (zh) 话音活动检测系统和方法
CN1856820A (zh) 语音识别方法和通信设备
Akbacak et al. Environmental sniffing: noise knowledge estimation for robust speech systems
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
JP5740362B2 (ja) 雑音抑圧装置、方法、及びプログラム
JP5235187B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
WO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム記録媒体
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
Loh et al. Speech recognition interactive system for vehicle
Charan et al. Unveiling the challenges of speech recognition in noisy environments: A comprehensive review of issues and solutions
Kannadaguli et al. Phoneme modeling for speech recognition in Kannada using Hidden Markov Model
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP2007078943A (ja) 音響スコア計算プログラム
Gomez et al. Techniques in rapid unsupervised speaker adaptation based on HMM-sufficient statistics
Stemmer et al. A phone recognizer helps to recognize words better

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005721202

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2006511980

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWE Wipo information: entry into national phase

Ref document number: 11547322

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2005721202

Country of ref document: EP