JP2000214880A - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置

Info

Publication number
JP2000214880A
JP2000214880A JP2000014228A JP2000014228A JP2000214880A JP 2000214880 A JP2000214880 A JP 2000214880A JP 2000014228 A JP2000014228 A JP 2000014228A JP 2000014228 A JP2000014228 A JP 2000014228A JP 2000214880 A JP2000214880 A JP 2000214880A
Authority
JP
Japan
Prior art keywords
speaker
adaptation
models
speech recognition
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000014228A
Other languages
English (en)
Inventor
Goronjii Silke
ゴロンジー シルケ
Konpe Ralf
コンペ ラルフ
Buchner Peter
ブフナー ペーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of JP2000214880A publication Critical patent/JP2000214880A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

(57)【要約】 【課題】 不特定話者の音声認識において適応化の効率
を良くする。 【解決手段】 話者の変更を検出し、話者を識別し、音
声認識の動作において、識別された話者に適応する特定
話者適応モデルのセットが存在する場合は、その特定話
者適応モデルのセットを用い、存在しない場合は、話者
用の特定話者適応モデルを新たに生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識を行う音
声認識方法及び音声認識装置に関し、特に、不特定話者
の音声認識において適応化の効率を良くする音声認識方
法及び音声認識装置に関する。
【0002】
【従来の技術】従来の音声認識装置は、任意の音声セグ
メント(speech segment)の音響特性(acoustic proper
ties)をモデル化した統計的な分布(statistical distr
ibution)を利用している。これらの音響特性は、特徴
ベクトル(feature vectors)にエンコードされる。例
えば、各音素(phoneme)に対して1つのガウス分布を
得ることができる。これらの分布は、それぞれ1つの状
態と対応付けられる。(確率的な)状態遷移ネットワー
ク、例えば隠れマルコフモデル(Hidden Markov Mode
l:以下、HMMモデルという。)は、状態の連続及び
特徴ベクトルの連続の確率を定義する。状態を進める毎
に、音声信号のフレーム、例えば音声信号の10ms分
をカバーする1つの特徴ベクトルが生成される。
【0003】このような音声認識装置の確率パラメータ
は、特定話者(Speaker Dependent:SD)方式では単
一話者が発した多量の音声データを用い、又は不特定話
者(Speaker Independent:SI)方式では多くの話者が
発した多量の音声データを用いて学習される。
【0004】話者適応化手法(Speaker Adaptation:S
A)は、不特定話者(SI)方式の認識率を高める目的
で広く利用されている。従来の特定話者(SD)方式
は、不特定話者(SI)方式に比べてはるかに高い認識
率が得られる。しかし、多くの場合、単一話者から音声
認識装置が学習するのに十分なデータを得ることは容易
でない。民生用機器においては、十分なデータを得るこ
とは更に困難である。この認識率の差を解決するため
に、話者適応化アルゴリズムが広く用いられている。こ
の話者適応化アルゴリズムを用いることによって、特定
話者(SD)方式における特定話者データと比べると少
量の特定話者データを使用するだけで、不特定話者(S
I)方式において、特定話者(SD)方式に近い認識率
を得ることができる。このような話者適応化手法では、
最初は話者不特定モデルを用い、その後、より話者の音
響特性に一致するように適応化が行われる。
【0005】適応化は、一般的には、教示(supervise
d)によって行われる。すなわち、音声認識装置は、発
せられた単語(words)が分かると、それらを認識す
る。これによって、セグメント単位の分布(segment-sp
ecific distributions)の時間的な配列(time alignme
nt)が得られる。適応化は、実際の特徴ベクトルと対応
する分布のパラメータの違い(mismatch)を基礎として
行われる。教示による適応化(supervised adaptatio
n)では、新しい話者が音声認識装置を実際に使用する
前に、新しい話者毎の適応授業(セッション)が必要と
される。
【0006】話者適応化の技術では、一般的に、隠れマ
ルコフモデルのパラメータを、新しい話者の音響特性に
適合するように変更する。この処理は、一般的には、上
述のようにバッチ処理(batch)又はオフライン処理(o
ff-line)で行われる。すなわち、話者は、音声認識装
置を用いて認識を行わせる前に、所定の文章(text)を
読み上げる必要があり、読み上げられた文章は、適応化
を行うために処理される。そして、この処理が終了した
後、話者は、この音声認識装置を認識のために用いるこ
とができる。文章が音声認識装置にとって既知のもので
あり、音声信号を文章に対応するモデルに強制配列し
て、この強制配列が認識に用いられるので、このモード
は教示適応(supervised adaptation)と呼ばれる。
【0007】しかしながら、殆どの種類の民生用機器に
対しては、非教示又はオンライン方式(unsupervised o
r on-line method)の方がより適している。この場合、
適応化は、音声認識装置が使用されている最中に行われ
る。認識された発話(utterance)は、適応化のために
用いられ、また、変更されたモデルは、次の発話の認識
のために用いられる。この場合、読み上げられる文章
は、音声認識装置には未知のものであるので、認識され
た単語が代わりに用いられる。
【0008】特定の話者の発話の認識をより向上させる
ために、1つの話者適応モデルのセットに対する適応化
が繰り返し行われる。話者適応化の方法がいくつかあ
り、例えば帰納的最大確率(maximum a posteriori pro
bability:MAP)適応化や、最尤線形回帰(maximum
likelihood linear regression:MLLR)適応化があ
る。
【0009】ところで、例えば建物やシステムへの進入
者を制限するのに用いられる検証及び識別技術が知られ
ている。この技術は、音声認識装置においては、新しい
話者を識別するのに用いられている。
【0010】
【発明が解決しようとする課題】上述した話者適応化の
ための音声認識装置、特に非教示の適応化を行う装置
は、1人の話者の適応化しか行わない。したがって、話
者が変わると、その新しい話者が高い認識率でその音声
認識装置を使用できるようになるまでには、不特定話者
(SI)方式でその話者の適応化を新たに行わなければ
ならない。
【0011】家庭又は車内といった環境では話者が頻繁
に入れ替わるが、話者となる人物は、例えば家族の構成
員等、事実上定まっている。したがって、話者のうちの
1人がその音声認識装置を用いるたびに適応化を最初か
らすべて再度行い、特定の話者に対するすべての前のモ
デルを削除してしまうのは、効率が悪い。
【0012】音声認識の技術は、例えばディクテーショ
ン装置等、様々な種類の音声認識装置で広く用いられて
いる。これらの音声認識装置の中には、複数の話者適応
モデルのセットを記憶して、複数の話者がそれぞれ異な
る話者適応モデルのセットを用いることができるものも
ある。しかしながら、どの話者適応モデルのセットを用
いるのかを、毎回手動で特定しなければならない。
【0013】本発明は、上述した実情に鑑みてなされた
ものであり、本発明の目的は、不特定話者の音声認識に
おいて適応化の効率を良くすることができる音声認識方
法及び音声認識装置を提供することである。
【0014】
【課題を解決するための手段】上述した目的を達成する
ために、本発明に係る音声認識方法は、話者の変更を検
出するステップと、話者を識別するステップと、音声認
識の動作において、識別された話者に適応する特定話者
適応モデルのセットが存在する場合は、その特定話者適
応モデルのセットを用い、存在しない場合は、話者用の
特定話者適応モデルを新たに生成するステップとを有す
る。
【0015】本発明に係る音声認識方法では、話者の変
更が検出され、その話者が識別される。その話者に対し
て既に適応化が行われている場合、その既に存在してい
る話者適応モデルのセットがその後の適応化に用いられ
る。その話者に対して適応化が行われていない場合は、
その話者用の話者適応モデルが新たに生成される。ま
た、本発明に係る音声認識装置では、誰が話しているの
かを識別するのに、話者検証の技術が用いられる。
【0016】また、本発明に係る音声認識装置は、話者
の発話を受信してアナログ信号を出力するマイクロフォ
ンと、マイクロフォンに接続され、アナログ信号をデジ
タル信号に変換するA/D変換手段と、A/D変換手段
に接続され、デジタル信号から、受信された話者からの
発話の特徴ベクトルを抽出する特徴抽出手段と、特徴抽
出手段に接続され、特徴ベクトルに基づいて、受信され
た話者からの発話を認識する認識手段と、認識手段から
出された認識結果を受信して、話者適応モデルのセット
を生成する及び/又は適応化に用いる適応手段と、新し
い話者を識別して、識別された話者の音声認識及び識別
された話者へのモデルの適応化の基礎となる個人の話者
適応モデルのセットを選択する検証手段とを備える。
【0017】本発明に係る音声認識装置では、複数の定
まった人物が主に音声認識装置を使用し、その人物の間
で頻繁に入れ替えが行われるネットワーク化された環境
において、話者が入れ替わるたびに前回とは異なる話者
に対する適応化を再度行うことはせず、その話者を識別
し、この特定の話者用の話者適応モデルのセットが存在
する場合は、その話者適応モデルのセットに切り換え
る。この場合、この話者適応モデルのセットは、記憶さ
れ、認識及びその後の適応化に用いられる。この話者適
応モデルのセットとともに、その適応化に必要な統計的
なハイパーパラメータ(hyperparameter)が記憶され
る。このため、この適応化を継続することができ、この
同一の話者がこの音声認識装置を再び使用する際、適応
化を再度行わなくて済む。このようなハイパーパラメー
タは、例えば、ある話者に対応する話者適応モデルのセ
ットに適応する適応スピードを決定するための重み付け
である。一方、この特定の話者に対する話者適応モデル
のセットが存在しない場合、最初に不特定話者(SI)
方式を用いて適応化を行い、新しい話者適応モデルを作
る。
【0018】
【発明の実施の形態】以下、本発明に係る音声認識方法
及び音声認識装置について、図面を参照しながら説明す
る。
【0019】図1は、話者適応化及び話者の自動識別の
ために用いられる、本発明を適用した音声認識装置の一
部を示すブロック図である。
【0020】この音声認識装置は、図1に示すように、
話者の発話を受信し、この発話に基づいてアナログ信号
を生成するマイクロフォン1と、マイクロフォン1に接
続されて、アナログ信号をデジタル信号に変換するA/
D変換器2と、A/D変換器2に接続されて受信した信
号から特徴ベクトルを抽出する特徴抽出器3と、特徴抽
出器3に接続されて話者を識別する検証器4と、特徴抽
出器3に接続されて話者の発話を認識する認識器5と、
認識器5に接続されて話者にモデルのセットの適応化を
行う適応器6と、各モデルのセットを記憶するストレー
ジ装置7、8、9、10と、検証器4からの制御信号に
従ってモデルのセットを切り換える切換スイッチ11と
を備える。
【0021】この音声認識装置では、隠れマルコフ(H
MM)モデルに基づいて音声認識が行われる。
【0022】マイクロフォン1は、話者の発話をアナロ
グ音声信号に変換してA/D変換器2に供給する。A/
D変換器2は、アナログ音声信号をデジタル信号に変換
し、特徴抽出器3に出力する。特徴抽出器3は、このデ
ジタル信号から、例えば10ミリ秒毎に特徴ベクトルを
抽出する。この特徴ベクトルは、検証器4及び認識器5
に供給される。検証器4は、上述したように、話者の自
動識別を行う。認識器5は、抽出された特徴ベクトルと
HMMモデルのセットに基づいて話者の発話の認識を行
う。認識器5は、認識結果を適応器6に供給し、適応器
6は、特定の話者に特定のHMMモデルのセットを適応
化させる。
【0023】検証器4は、認識器5がアクセスし、適応
器6が適応化に用いるHMMモデルのセットとして、話
者不特定モデルを選択するか、又は、異なる話者それぞ
れに適応する複数の話者適応モデルのセットのうちの1
つを選択する。これらの異なるモデルのセットは、対応
する各ハイパーパラメータとともにそれぞれストレージ
装置7、8、9、10に記憶されている。認識器5及び
適応器6に接続されている選択端子を備える切換スイッ
チ11は、検証器4から上述したモデルのセットのうち
の1つに供給される制御信号に従って、各ストレージ装
置7、8、9、10に接続されている被選択端子を選択
することによって、モデルのセットを自動的に選択す
る。
【0024】なお、話者適応モデルのセットを、個人の
話者に適応化させるのではなく、ドイツ人、イギリス
人、英語を話すドイツ人、アメリカ人等、又は、異なる
方言を話す人々のように、個々のグループに適応化させ
てもよい。これらのグループは、その音声信号に対して
直接機能する周知の言語又は方言の識別アルゴリズムに
従って、自動的に識別される。
【0025】切換スイッチ11の代わりに、これと同じ
機能を有する他の手法を用いてもよい。
【0026】図2は、本発明を適用した音声認識装置に
おいて行われる検証及び適応化の手順を示すフローチャ
ートである。ステップS1において、マイクロフォン1
が話者の発話をアナログ信号に変換し、A/D変換器2
がこのアナログ信号をデジタル信号に変換し、特徴抽出
器3がこのデジタル信号から特徴ベクトルを抽出する。
その後、ステップS2において、検証器4が、新しい話
者が話しているか否かを自動的に確認する。新しい話者
が話している場合は(YES)、ステップS3におい
て、検証器4が、この話者に適応する話者適応モデルの
セットが存在するか否かを確認する。話者適応モデルの
セットが存在する場合は(YES)、ステップS4にお
いて、適応器6がこの話者適応モデルのセットをその後
の適応化に用いる。その後、ステップS1において、こ
の音声認識装置は次の発話を処理し、この発話に対して
全工程を繰り返す。
【0027】ステップS3において、話者適応モデルの
セットが存在しない場合は(NO)、ステップS6にお
いて、適応器6が話者不特定モデルを用いた適応化を行
い、新しい話者適応モデルがこの音声認識装置に加えら
れる。その後、ステップS1において、この音声認識装
置は次の発話を処理し、この発話に対して全工程を繰り
返す。ステップS2において、話者が新しい話者ではな
い場合は(NO)、ステップS5において、適応器6
が、その時点で使われている話者適応モデルのセットで
適応化を行う。その後、ステップS1において、この音
声認識装置は次の発話を処理し、この発話に対して全工
程を繰り返す。
【0028】
【発明の効果】本発明に係る音声認識方法及び音声認識
装置では、話者が変更されると、話者の変更が検出さ
れ、その話者が識別され、その話者用の話者適応モデル
のセットが既にストレージ装置に記憶されている場合
は、その話者適応モデルのセットを用いて音声認識が行
われ、一方、その話者用の話者適応モデルのセットが記
憶されていない場合は、最初に不特定話者(SI)方式
を用いて適応化が行われ、新しい話者適応モデルが作ら
れるため、従来のように話者が入れ替わるたびに前回と
は異なる話者に対する適応化を再度行う必要がなく、一
度行った適応化を継続することができる。
【0029】また、本発明に係る音声認識方法及び音声
認識装置では、話者が変更されると、従来のように手動
でモデルのセットを指定する必要はなく、切換スイッチ
によって、話者不特定モデル又は複数の話者適応モデル
のセットから適切なものが自動的に選択される。
【0030】したがって、本発明に係る音声認識方法及
び音声認識装置によれば、不特定話者の音声認識におい
て適応化の効率を良くすることができる。
【図面の簡単な説明】
【図1】話者の音声認識及び自動識別のために用いられ
る、本発明を適用した音声認識装置の一部を示すブロッ
ク図である。
【図2】本発明を適用した音声認識装置において行われ
る検証及び適応化の手順を示すフローチャートである。
【符号の説明】
1 マイクロフォン、2 A/D変換器、3 特徴抽出
器、4 検証器、5 認識器、6 適応器、7、8、
9、10 ストレージ装置、11 切換スイッチ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 シルケ ゴロンジー ドイツ連邦共和国 ディー−70736 フェ ルバッハシュトゥットゥガルター シュト ラーセ 106 ソニー インターナショナ ル(ヨーロッパ) ゲゼルシャフト ミッ ト ベシュレンクテル ハフツング シュ トゥットゥガルト テクノロジーセンター 内 (72)発明者 ラルフ コンペ ドイツ連邦共和国 ディー−70736 フェ ルバッハシュトゥットゥガルター シュト ラーセ 106 ソニー インターナショナ ル(ヨーロッパ) ゲゼルシャフト ミッ ト ベシュレンクテル ハフツング シュ トゥットゥガルト テクノロジーセンター 内 (72)発明者 ペーター ブフナー ドイツ連邦共和国 ディー−70736 フェ ルバッハシュトゥットゥガルター シュト ラーセ 106 ソニー インターナショナ ル(ヨーロッパ) ゲゼルシャフト ミッ ト ベシュレンクテル ハフツング シュ トゥットゥガルト テクノロジーセンター 内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 話者の変更を検出するステップと、 話者を識別するステップと、 音声認識の動作において、上記識別された話者に適応す
    る特定話者適応モデルのセットが存在する場合は、該特
    定話者適応モデルのセットを用い、存在しない場合は、
    上記話者用の特定話者適応モデルを新たに生成するステ
    ップとを有する音声認識方法。
  2. 【請求項2】 話者不特定モデルに基づいて、特定話者
    適応モデルのセットが生成されることを特徴とする請求
    項1に記載の音声認識方法。
  3. 【請求項3】 対応する話者の発話に基づいて、特定話
    者適応モデルのセットが適応化に用いられることを特徴
    とする請求項1乃至2のいずれか1項に記載の音声認識
    方法。
  4. 【請求項4】 対応する話者のハイパーパラメータに基
    づいて、特定話者適応モデルのセットが適応化に用いら
    れることを特徴とする請求項1乃至3のいずれか1項に
    記載の音声認識方法。
  5. 【請求項5】 上記音声認識は、隠れマルコフモデルに
    基づいて行われることを特徴とする請求項1乃至4のい
    ずれか1項に記載の音声認識方法。
  6. 【請求項6】 話者の発話を受信してアナログ信号を出
    力するマイクロフォンと、 上記マイクロフォンに接続され、上記アナログ信号をデ
    ジタル信号に変換するアナログ−デジタル変換手段と、 上記アナログ−デジタル変換手段に接続され、受信され
    た上記話者の発話の特徴ベクトルを上記デジタル信号か
    ら抽出する特徴抽出手段と、 上記特徴抽出手段に接続され、上記特徴ベクトルに基づ
    いて、上記受信された上記話者からの発話を認識する認
    識手段と、 上記認識手段から出された認識結果を受信して、話者適
    応モデルのセットを生成する及び/又は適応化に用いる
    適応手段と、 新しい話者を識別して、上記識別された話者の音声認識
    及び上記識別された話者へのモデルの適応化の基礎とな
    る個人の話者適応モデルのセットを選択する検証手段と
    を備える音声認識装置。
  7. 【請求項7】 話者不特定モデルと、適応化のハイパー
    パラメータを含む各個人の話者適応モデルのセットとを
    記憶するストレージ装置を備える請求項6に記載の音声
    認識装置。
  8. 【請求項8】 各適応化のハイパーパラメータは、対応
    する個人の話者適応モデルのセットのストレージ装置に
    記憶されていることを特徴とする請求項7に記載の音声
    認識装置。
JP2000014228A 1999-01-20 2000-01-20 音声認識方法及び音声認識装置 Withdrawn JP2000214880A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP99100951.5 1999-01-20
EP99100951A EP1022725B1 (en) 1999-01-20 1999-01-20 Selection of acoustic models using speaker verification

Publications (1)

Publication Number Publication Date
JP2000214880A true JP2000214880A (ja) 2000-08-04

Family

ID=8237374

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000014228A Withdrawn JP2000214880A (ja) 1999-01-20 2000-01-20 音声認識方法及び音声認識装置

Country Status (3)

Country Link
EP (1) EP1022725B1 (ja)
JP (1) JP2000214880A (ja)
DE (1) DE69924596T2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003529106A (ja) * 2000-03-24 2003-09-30 スピーチワークス・インターナショナル・インコーポレーテッド 音声認識システムのための分割アプローチ
KR101154011B1 (ko) * 2010-06-07 2012-06-08 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
KR101214252B1 (ko) 2011-12-22 2012-12-20 주식회사 서비전자 다중 모델 적응화장치 및 방법
KR101214251B1 (ko) * 2011-12-22 2013-01-21 주식회사 서비전자 다중 모델 적응화방법
KR101529918B1 (ko) * 2008-09-10 2015-06-18 엘지전자 주식회사 다중 스레드를 이용한 음성 인식 장치 및 그 방법
CN113823263A (zh) * 2020-06-19 2021-12-21 深圳Tcl新技术有限公司 一种语音识别方法以及系统

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
JP3437492B2 (ja) * 1999-06-21 2003-08-18 松下電器産業株式会社 音声認識方法及び装置
EP1213706B1 (en) * 2000-12-11 2006-07-19 Sony Deutschland GmbH Method for online adaptation of pronunciation dictionaries
US20030125947A1 (en) * 2002-01-03 2003-07-03 Yudkowsky Michael Allen Network-accessible speaker-dependent voice models of multiple persons
DE60213195T8 (de) * 2002-02-13 2007-10-04 Sony Deutschland Gmbh Verfahren, System und Computerprogramm zur Sprach-/Sprechererkennung unter Verwendung einer Emotionszustandsänderung für die unüberwachte Anpassung des Erkennungsverfahrens
US7620547B2 (en) 2002-07-25 2009-11-17 Sony Deutschland Gmbh Spoken man-machine interface with speaker identification
EP1387350A1 (en) * 2002-07-25 2004-02-04 Sony International (Europe) GmbH Spoken man-machine interface with speaker identification
GB2403327B (en) * 2003-06-25 2006-08-02 Domain Dynamics Ltd Method of adapting a speech-based identity verification system
ES2311344B1 (es) * 2006-04-28 2009-12-17 France Telecom España, S.A. Metodo de reconocimiento del habla con entrenamiento progresivo.
US20080004876A1 (en) * 2006-06-30 2008-01-03 Chuang He Non-enrolled continuous dictation
WO2008092473A1 (en) * 2007-01-31 2008-08-07 Telecom Italia S.P.A. Customizable method and system for emotional recognition
US8386254B2 (en) 2007-05-04 2013-02-26 Nuance Communications, Inc. Multi-class constrained maximum likelihood linear regression
EP2048656B1 (en) * 2007-10-10 2010-02-10 Harman/Becker Automotive Systems GmbH Speaker recognition
EP2189976B1 (en) 2008-11-21 2012-10-24 Nuance Communications, Inc. Method for adapting a codebook for speech recognition
CN103077713B (zh) * 2012-12-25 2019-02-01 青岛海信电器股份有限公司 一种语音处理方法及装置
CN113643690A (zh) * 2021-10-18 2021-11-12 深圳市云创精密医疗科技有限公司 针对患者不规则声音的高精密医疗设备的语言识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003529106A (ja) * 2000-03-24 2003-09-30 スピーチワークス・インターナショナル・インコーポレーテッド 音声認識システムのための分割アプローチ
KR101529918B1 (ko) * 2008-09-10 2015-06-18 엘지전자 주식회사 다중 스레드를 이용한 음성 인식 장치 및 그 방법
KR101154011B1 (ko) * 2010-06-07 2012-06-08 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
KR101214252B1 (ko) 2011-12-22 2012-12-20 주식회사 서비전자 다중 모델 적응화장치 및 방법
KR101214251B1 (ko) * 2011-12-22 2013-01-21 주식회사 서비전자 다중 모델 적응화방법
CN113823263A (zh) * 2020-06-19 2021-12-21 深圳Tcl新技术有限公司 一种语音识别方法以及系统
WO2021253779A1 (zh) * 2020-06-19 2021-12-23 深圳Tcl新技术有限公司 一种语音识别方法以及系统

Also Published As

Publication number Publication date
DE69924596T2 (de) 2006-02-09
EP1022725B1 (en) 2005-04-06
EP1022725A1 (en) 2000-07-26
DE69924596D1 (de) 2005-05-12

Similar Documents

Publication Publication Date Title
JP2000214880A (ja) 音声認識方法及び音声認識装置
KR100697961B1 (ko) 반-지시된 화자 적응
KR970001165B1 (ko) 대화자 훈련의 음성 인식기 및 그 사용방법
US4618984A (en) Adaptive automatic discrete utterance recognition
JP4546555B2 (ja) 話し手に暗黙的に順応する技術を用いた音声認識システム
US5465317A (en) Speech recognition system with improved rejection of words and sounds not in the system vocabulary
US5222190A (en) Apparatus and method for identifying a speech pattern
US5664058A (en) Method of training a speaker-dependent speech recognizer with automated supervision of training sufficiency
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
CN109671434A (zh) 一种语音设备及自学习语音识别方法
JPH10504404A (ja) 音声認識のための方法および装置
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
JP4638970B2 (ja) 音声認識装置の適応化方法
US8874438B2 (en) User and vocabulary-adaptive determination of confidence and rejecting thresholds
US20030187645A1 (en) Automatic detection of change in speaker in speaker adaptive speech recognition system
KR100322202B1 (ko) 신경망을 이용한 음성인식장치 및 그 방법
Sreekanth et al. Speaker embedding extraction with virtual phonetic information
JPH0981182A (ja) 隠れマルコフモデルの学習装置及び音声認識装置
Wani et al. Automatic Voice Recognition System
JP3105708B2 (ja) 音声認識装置
JPH10207485A (ja) 音声認識装置及び話者適応方法
JP2000112490A (ja) 音声認識方法及び音声認識装置並びに音声認識処理プログラムを記録した記録媒体
Feng Speaker adaptation based on spectral normalization and dynamic HMM parameter adaptation
Pekar et al. AlfaNum System for Continuous Speech Recognition
Lee et al. Development of a Read-time Voice Dialing System Using Discrete Hidden Markov Models

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070403