JP2005293580A5 - - Google Patents

Download PDF

Info

Publication number
JP2005293580A5
JP2005293580A5 JP2005092423A JP2005092423A JP2005293580A5 JP 2005293580 A5 JP2005293580 A5 JP 2005293580A5 JP 2005092423 A JP2005092423 A JP 2005092423A JP 2005092423 A JP2005092423 A JP 2005092423A JP 2005293580 A5 JP2005293580 A5 JP 2005293580A5
Authority
JP
Japan
Prior art keywords
language model
parameter
backoff
interpolation
storing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005092423A
Other languages
English (en)
Other versions
JP2005293580A (ja
JP4974470B2 (ja
Filing date
Publication date
Priority claimed from US10/810,254 external-priority patent/US7406416B2/en
Application filed filed Critical
Publication of JP2005293580A publication Critical patent/JP2005293580A/ja
Publication of JP2005293580A5 publication Critical patent/JP2005293580A5/ja
Application granted granted Critical
Publication of JP4974470B2 publication Critical patent/JP4974470B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Claims (20)

  1. 削除補間言語モデルのパラメータを記憶する方法であって、
    前記削除補間言語モデル用のパラメータのセットを得るステップと、
    前記削除補間言語モデル用の少なくとも1つのパラメータをバックオフ言語モデル用のパラメータとして記憶するステップとを含み、
    前記削除補間言語モデルのパラメータにより、Nグラム確率を、前記Nグラム確率の相対頻度推定値と、より低次のnグラムの確率との線形補間として決定することが可能であり、
    前記バックオフ言語モデルは、前記Nグラム確率をより低次のnグラム、および前記バックオフ言語モデル中で突き止めることができない、任意のNグラムに対するバックオフ重みで置き換えることを特徴とする方法。
  2. 前記削除補間言語モデル用の少なくとも1つのパラメータを記憶するステップは、単語シーケンスの補間済み確率を前記バックオフ言語モデル中の単語シーケンスの確率として記憶するステップを含むことを特徴とする請求項1に記載の方法。
  3. 前記補間済み確率を記憶するステップは、前記単語シーケンスの相対頻度がしきい値よりも大きいと判定した後で前記補間済み確率を確率として記憶するステップを含むことを特徴とする請求項2に記載の方法。
  4. 前記相対頻度は、小数値を有する頻度カウントに基づいて決定されることを特徴とする請求項3に記載の方法。
  5. 前記補間済み確率を記憶するステップは、前記単語シーケンスが前記バックオフ言語モデル中のnグラムに対するコンテキストを形成すると判定された後で前記補間済み確率を確率として記憶するステップを含むことを特徴とする請求項2に記載の方法。
  6. 前記削除補間言語モデル用の少なくとも1つのパラメータを記憶するステップは、前記削除補間モデル用の補間重みを前記バックオフ言語モデル用のバックオフ重みとして記憶するステップを含むことを特徴とする請求項1に記載の方法。
  7. 前記補間重みを記憶するステップはさらに、前記補間重みに関連する単語シーケンスを前記補間重みと同じエントリに記憶するステップを含むことを特徴とする請求項6に記載の方法。
  8. 前記パラメータのセットを得るステップは、補間重みのセットを訓練するステップを含むことを特徴とする請求項1に記載の方法。
  9. 前記補間重みのセットを訓練するステップは、頻度カウント範囲のセットごとに別々の重みを訓練するステップを含むことを特徴とする請求項8に記載の方法。
  10. 前記削除補間言語モデル用の少なくとも1つのパラメータを記憶するステップは、バックオフ言語モデル用のARPAフォーマットに準拠するデータ構造を生み出すように前記少なくとも1つのパラメータを記憶するステップを含むことを特徴とする請求項1に記載の方法。
  11. コンピュータ実行可能命令を有するコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
    補間の値を通して確率を形成する削除補間言語モデル用のパラメータを識別するステップと、
    前記パラメータをバックオフ言語モデル用のバックオフパラメータとしてデータ構造中に配置するステップと
    をコンピュータに実行させるための命令であり、
    前記バックオフパラメータは、前記Nグラムが前記バックオフ言語モデル中で突き止めることができない場合に、重み付けされたより低次のnグラムの確率をNグラムの確率に対して代用することを特徴とするコンピュータ可読媒体。
  12. 前記パラメータをデータ構造中に配置するステップは、前記パラメータが前記バックオフ言語モデルの一部として含まれるべきであると判定するステップを含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
  13. 前記パラメータが前記バックオフ言語モデルの一部として含まれるべきであると判定するステップは、訓練テキスト中における単語シーケンスの頻度がしきい値を超えると判定するステップを含むことを特徴とする請求項12に記載のコンピュータ可読媒体。
  14. 前記パラメータが前記バックオフ言語モデルの一部として含まれるべきであると判定するステップは、前記パラメータに関連する単語シーケンスが、前記データ構造に記憶されたnグラム中のコンテキストを形成すると判定するステップを含むことを特徴とする請求項12に記載のコンピュータ可読媒体。
  15. 前記パラメータをデータ構造中に配置するステップは、補間済み確率をnグラムの確率として配置するステップを含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
  16. 前記パラメータをデータ構造中に配置するステップは、補間重みをコンテキストに対するバックオフ重みとして配置するステップを含むことを特徴とする請求項11に記載のコンピュータ可読媒体。
  17. 前記データ構造はバックオフ言語モデル用のARPA標準に準拠することを特徴とする請求項11に記載のコンピュータ可読媒体。
  18. 言語モデルを構築する方法であって、
    削除補間を用いて言語モデル用のパラメータを訓練するステップと、
    前記訓練されたパラメータの少なくともいくつかを、バックオフ言語モデル用のARPAフォーマットに準拠するデータ構造で記憶するステップと
    を含むことを特徴とする方法。
  19. 前記訓練されたパラメータの少なくともいくつかを記憶するステップは、訓練テキスト中でしきい値量よりも多く出現する単語シーケンスに関連するパラメータを記憶するステップを含むことを特徴とする請求項18に記載の方法。
  20. 前記訓練されたパラメータの少なくともいくつかを記憶するステップは、前記データ構造に記憶されたnグラム中のコンテキスト単語として出現する単語シーケンスに関連するパラメータを記憶するステップを含むことを特徴とする請求項18に記載の方法。
JP2005092423A 2004-03-26 2005-03-28 Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現 Expired - Lifetime JP4974470B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/810,254 US7406416B2 (en) 2004-03-26 2004-03-26 Representation of a deleted interpolation N-gram language model in ARPA standard format
US10/810,254 2004-03-26

Publications (3)

Publication Number Publication Date
JP2005293580A JP2005293580A (ja) 2005-10-20
JP2005293580A5 true JP2005293580A5 (ja) 2008-05-15
JP4974470B2 JP4974470B2 (ja) 2012-07-11

Family

ID=34862105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005092423A Expired - Lifetime JP4974470B2 (ja) 2004-03-26 2005-03-28 Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現

Country Status (7)

Country Link
US (1) US7406416B2 (ja)
EP (1) EP1580667B1 (ja)
JP (1) JP4974470B2 (ja)
KR (1) KR101120773B1 (ja)
CN (1) CN100535890C (ja)
AT (1) ATE496342T1 (ja)
DE (1) DE602005025955D1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8700404B1 (en) 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US20070078653A1 (en) * 2005-10-03 2007-04-05 Nokia Corporation Language model compression
US20080282154A1 (en) * 2006-09-11 2008-11-13 Nurmi Mikko A Method and apparatus for improved text input
US7774197B1 (en) 2006-09-27 2010-08-10 Raytheon Bbn Technologies Corp. Modular approach to building large language models
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
CN102272754B (zh) * 2008-11-05 2015-04-01 谷歌公司 定制语言模型
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
US8655647B2 (en) * 2010-03-11 2014-02-18 Microsoft Corporation N-gram selection for practical-sized language models
US9367526B1 (en) * 2011-07-26 2016-06-14 Nuance Communications, Inc. Word classing for language modeling
CN102982024B (zh) * 2011-09-02 2016-03-23 北京百度网讯科技有限公司 一种搜索需求识别方法及装置
CN102509549B (zh) * 2011-09-28 2013-08-14 盛乐信息技术(上海)有限公司 语言模型训练方法及系统
US9224386B1 (en) 2012-06-22 2015-12-29 Amazon Technologies, Inc. Discriminative language model training using a confusion matrix
US9292487B1 (en) * 2012-08-16 2016-03-22 Amazon Technologies, Inc. Discriminative language model pruning
US20150088511A1 (en) * 2013-09-24 2015-03-26 Verizon Patent And Licensing Inc. Named-entity based speech recognition
KR101509727B1 (ko) 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
US9400783B2 (en) * 2013-11-26 2016-07-26 Xerox Corporation Procedure for building a max-ARPA table in order to compute optimistic back-offs in a language model
US10311046B2 (en) * 2016-09-12 2019-06-04 Conduent Business Services, Llc System and method for pruning a set of symbol-based sequences by relaxing an independence assumption of the sequences

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1940720A (en) * 1931-03-16 1933-12-26 Madsen Jens A Windfeld Water softener
US4096017A (en) * 1977-02-18 1978-06-20 H. C. Price Co. Method and article for forming field joints on pipe coated with thermoplastic material
US4111017A (en) * 1977-06-21 1978-09-05 The United States Of America As Represented By The United States Department Of Energy Manually operated coded switch
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
US5199464A (en) * 1989-12-28 1993-04-06 Interprovincial Pipe Line, Inc. Pipeline repair sleeve assembly having heat sink groove
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
IT1254723B (it) * 1992-03-18 1995-10-09 Snam Spa Procedimento perfezionato per gli interventi di riparazione di danni localizzati alle condotte mediante applicazione di corazze con una guaina protettiva interposta
EP0602296A1 (en) * 1992-12-17 1994-06-22 International Business Machines Corporation Adaptive method for generating field dependant models for intelligent systems
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
JP2886121B2 (ja) * 1995-11-10 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的言語モデル生成装置及び音声認識装置
US5937384A (en) 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5722463A (en) * 1996-11-25 1998-03-03 Petro-Line Upgrading Services Ltd. External pipe reinforcing sleeve
CA2192620C (en) * 1996-12-11 2000-08-29 Gerald Henderson Pipe repair assembly
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
JP2000250583A (ja) * 1999-03-02 2000-09-14 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置及び音声認識装置
JP2000356997A (ja) 1999-06-15 2000-12-26 Atr Interpreting Telecommunications Res Lab 統計的言語モデル生成装置及び音声認識装置
JP2001142881A (ja) 1999-11-16 2001-05-25 Nippon Telegr & Teleph Corp <Ntt> 統計的言語モデル及びそれを用いた確率計算法

Similar Documents

Publication Publication Date Title
JP2005293580A5 (ja)
JP2014509757A5 (ja)
JP2015526797A5 (ja)
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
JP2005242998A5 (ja)
JP2019032875A5 (ja)
CN106503231B (zh) 基于人工智能的搜索方法和装置
CN106709345A (zh) 基于深度学习方法推断恶意代码规则的方法、系统及设备
CN108959474B (zh) 实体关系提取方法
RU2017137748A (ru) Моделирование персональных объектов
JP2018010699A5 (ja)
WO2017139539A3 (en) Electronic message information retrieval system
JP2011163345A5 (ja)
JP2005063257A5 (ja)
JP2007279744A5 (ja)
RU2011140488A (ru) Основанные на показателях события для социальных сетей
JP2015534174A5 (ja)
CN102402502A (zh) 用于搜索引擎的分词处理方法和装置
CN109255115A (zh) 一种文本标点调整方法及装置
CN103106264B (zh) 一种地名匹配方法及装置
JP5790646B2 (ja) パープレキシティ算出装置
EP4020305A1 (en) Pre-trained language model fine-tuning method and apparatus and non-transitory computer-readable medium
CN111339248A (zh) 数据属性填充方法、装置、设备及计算机可读存储介质
CN111179944A (zh) 语音唤醒及年龄检测方法、装置及计算机可读存储介质
JP6759917B2 (ja) 文章生成装置および文章生成方法