JPH1097286A - 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体 - Google Patents
単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体Info
- Publication number
- JPH1097286A JPH1097286A JP9167243A JP16724397A JPH1097286A JP H1097286 A JPH1097286 A JP H1097286A JP 9167243 A JP9167243 A JP 9167243A JP 16724397 A JP16724397 A JP 16724397A JP H1097286 A JPH1097286 A JP H1097286A
- Authority
- JP
- Japan
- Prior art keywords
- word
- class
- words
- text data
- classes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
所定値以上の単語クラス列にトークンを付与し、テキス
トデータの単語・トークン列に含まれる単語とトークン
とが混在する集合を、テキストデータの単語・トークン
列の生成確率が最大になるように分割し、トークンをテ
キストデータに存在する連語に置換する。
Description
理方法、連語抽出方法、単語・連語分類処理装置、音声
認識装置、機械翻訳装置、連語抽出装置及び単語・連語
記憶媒体に関し、特に、テキストデータの中から連語を
自動的に抽出し、単語及び連語を自動的に分類する場合
に好適なものである。
「Brown,P.,Della Pietra,
V.,deSouza,P.,Lai,J.,Merc
er,R.(1992)“Class−Based n
−gram Models ofNatural La
nguage”.Computational Lin
guistics,Vol.18,No4,pp.46
7−479」に記載されているように、テキストデータ
の中で使用されている単独の単語を統計的に処理するこ
とにより、単独の単語を自動的に分類するものがあり、
この単独の単語の分類結果を用いて音声認識や機械翻訳
を行っていた。
単語分類処理装置は、単語と連語とをまとめて自動的に
分類することができず、単語と連語あるいは連語と連語
の対応関係や類似度を用いて、音声認識や機械翻訳を行
うことがきないため、音声認識や機械翻訳を正確に実行
することができないという問題があった。
語とをまとめて自動的に分類することが可能な単語・連
語分類処理方法及び単語・連語分類処理装置を提供する
ことである。
ストデータから高速に連語を抽出することが可能な連語
抽出装置を提供することである。また、本発明の第3の
目的は、単語と連語あるいは連語と連語の対応関係や類
似度を用いることにより、正確な音声認識が可能な音声
認識装置を提供することである。
あるいは連語と連語の対応関係や類似度を用いることに
より、正確な機械翻訳が可能な機械翻訳装置を提供する
ことである。
成するために、本発明によれば、テキストデータに含ま
れる単語と連語とを一緒に分類して、単語と連語とが混
在するクラスを生成するようにしている。
分類するだけでなく、単語と連語あるいは連語と連語と
をまとめて一緒に分類することができ、単語と連語ある
いは連語と連語との対応関係や類似度を容易に判別する
ことができる。
類した単語クラスをテキストデータの単語の一次元列に
マッピングして単語クラスの一次元列を生成し、テキス
トデータの単語クラスの一次元列において、隣接する単
語クラス間の粘着度が全て所定値以上の単語クラス列を
抽出してその単語クラス列にトークンを付与し、単語と
トークンとを一緒に分類してから、トークンに対応する
単語クラス列をその単語クラス列に属する連語で置換す
るようにしている。
を付与してその単語クラス列を1つの単語とみなし、テ
キストデータに含まれる単語とトークンを付与された単
語クラス列とを同等に取り扱って単語と連語との区別な
く分類処理を行うことができる。また、単語を分類した
単語クラスをテキストデータの単語の一次元列にマッピ
ングして単語クラスの一次元列を生成し、隣接する単語
クラス間の粘着度に基づいて連語を抽出することによ
り、テキストデータからの連語の抽出を高速に行うこと
ができる。
に、本発明によれば、単語を分類した単語クラスをテキ
ストデータの単語の一次元列にマッピングして単語クラ
スの一次元列を生成し、テキストデータの単語クラスの
一次元列において、隣接する単語クラス間の粘着度が全
て所定値以上の単語クラス列を抽出し、単語クラス列を
構成する個々の単語クラスから、テキストデータに隣接
して存在する個々の単語を別々に取り出して連語を抽出
するようにしている。
連語を抽出することができ、テキストデータに存在する
異なる単語の数よりも、それらの単語を分類した単語ク
ラスの数のほうが少ないので、テキストデータの単語ク
ラスの一次元列において、隣接する単語クラス間の粘着
度が所定値以上の単語クラス列を抽出するほうが、テキ
ストデータの単語の一次元列において、隣接する単語間
の粘着度が所定値以上の単語列を抽出する場合に比べ
て、演算量及びメモリ容量を少なくすることができ、連
語の抽出処理を高速に行うことができるとともに、メモ
リ資源を節約できる。なお、単語クラス列には、テキス
トデータの単語の一次元列に存在しない単語列が含まれ
ている場合があるので、単語クラス列を構成する個々の
単語クラスから、テキストデータに隣接して存在する個
々の単語を別々に取り出して連語としている。
に、本発明によれば、所定のテキストデータに含まれる
単語と連語とを、単語と連語とが混在するクラスに分類
して格納している単語・連語辞書を参照することによ
り、発音音声を音声認識するようにしている。
と連語の対応関係や類似度を用いながら音声認識を行う
ことができ、正確な処理が可能になる。また、上述した
第4の目的を達成するために、本発明によれば、所定の
テキストデータに含まれる単語と連語とを、単語と連語
とが混在するクラスに分類して格納している単語・連語
辞書に基づいて、用例文集に格納されている用例原文と
入力された原文とを対応させるようにしている。
る用例原文の単語が連語に置き換わった原文が入力され
た場合においても、入力された原文に用例原文を適用し
て機械翻訳を行うことができ、単語と連語あるいは連語
と連語の対応関係や類似度を用いた正確な機械翻訳が可
能になる。
単語・連語分類処理装置について図面を参照しながら説
明する。この実施例は、所定のテキストデータに含まれ
る単語と連語とを、単語と連語とが混在するクラスに分
類するものである。
連語分類処理装置の機能的な構成を示すブロック図であ
る。図1において、単語分類手段1は、テキストデータ
の単語の一次元列から互いに異なる単語を抽出し、抽出
された単語の集合を分割して単語クラスを生成する。
もので、テキストデータに含まれるT個の単語よりなる
単語の一次元列(w1 w2 w3 w4 ・・・wT )から、
テキストデータでの出現頻度順に並べたV個のボキャブ
ラリーとしての単語{v1 、v2 、v3 、v4 、・・
・、vV }を生成し、このテキストデータのボキャブラ
リーとしての単語{v1 、v2 、v3 、v4 、・・・、
vV }のそれぞれに初期化クラスを割り当てる。ここ
で、単語の個数T個は、例えば、5000万個であり、
ボキャブラリーの個数V個は、例えば、7000個であ
る。
度が高い、例えば、“the”、“a”、“in”、
“of”が、それぞれボキャブラリーとしての単語
v1 、v2、v3 、v4 に対応している。初期化クラス
を割り当てられたV個のボキャブラリーとしての単語
{v1 、v2 、v3 、v4 、・・・、vV }は、クラス
タリングによりC個の単語クラス{C1 、C2 、C3 、
C4 、・・・、CC }に分割される。ここで、単語クラ
スの個数C個は、例えば、500個である。
k”、“say”、“tell”、“talk”・・・
が単語クラスC1 に分類され、“he”、“she”、
“it”・・・が単語クラスC5 に分類され、“ca
r”、“track”、“wagon”・・・が単語ク
ラスC32に分類され、“Toyota”、“Nissa
n”、“GM”・・・が単語クラスC300 に分類されて
いる例を示している。
{v1 、v2 、v3 、v4 、・・・、vV }よりなる単
語の分類は、例えば、テキストデータに存在する2つの
単語がおのおの属する2つの単語クラスをマージした場
合、元のテキストデータの生成確率の減少が最も少なく
なるものを同一の単語クラスに統合することにより行
う。ここで、元のテキストデータのクラスバイモデルに
よる生成確率は、平均相互情報量AMIを用いて表現す
ることができ、この平均相互情報量AMIは以下の式に
より表すことができる。
の単語の一次元列(w1 w2 w3 w4 ・・・wT )をそ
の単語が属する単語クラスで置き換えた場合、そのテキ
ストデータの単語クラスの一次元列でのクラスCi の出
現確率、Pr(Cj )は、テキストデータの単語の一次
元列(w1 w2 w3 w4 ・・・wT )をその単語が属す
る単語クラスで置き換えた場合、そのテキストデータの
単語クラスの一次元列でのクラスCj の出現確率、Pr
(Ci 、Cj )は、テキストデータの単語の一次元列
(w1 w2 w3 w4・・・wT )を、その単語が属する
単語クラスで置き換えた場合、そのテキストデータの単
語クラスの一次元列での単語クラスCi の次に隣接して
単語クラスC j が出現する確率である。
構成の一例を示すブロック図である。図3において、初
期化クラス設定部10は、テキストデータの単語の一次
元列{w1 w2 w3 w4 ・・・wT }から互いに異なる
単語を抽出し、所定の出現頻度を有する単語{v1 、v
2 、v3 、v4 、・・・、vV }のそれぞれに固有の単
語クラス{C1 、C2 、C3 、C4 、・・・、CV }を
割り当てる。
1 、C2 、C3 、C4 、・・・、C M }から2つの単語
クラス{Ci 、Cj }を取り出して仮マージする。平均
相互情報量算出部12は、テキストデータの仮マージさ
れた単語クラス{C1 、C2 、C3 、C4 、・・・、C
M-1 }についての平均相互情報量AMIを(1)式によ
り算出する。この場合、M個の単語クラスの集合
{C1 、C2 、C 3 、C4 、・・・、CM }から2つの
単語クラス{Ci 、Cj }を取り出だす取り出しかた
は、M(M−1)/2個だけ存在するので、M(M−
1)/2回の平均相互情報量AMIの計算を行う必要が
ある。
れたM(M−1)/2個の平均相互情報量AMIの基づ
いて、平均相互情報量AMIを最大とする2つの単語ク
ラス{Ci 、Cj }を単語クラスの集合{C1 、C2 、
C3 、C4 、・・・、CM }から取り出して本マージす
る。このことにより、本マージされたいずれかの単語ク
ラス{Ci 、Cj }に属する単語は、同一の単語クラス
に分類される。
トデータの単語列(w1 w2 w3 w 4 ・・・wT )を構
成する個々の単語を、単語が属する単語クラス{C1 、
C2、C3 、C4 、・・・、CV }で置換することによ
り、テキストデータの単語クラス列を生成する。
次元列の一例を示す図である。図4において、単語分類
手段1によりC個の単語クラス{C1 、C2 、C3 、C
4 、・・・、CC }が生成されているものとし、例え
ば、単語クラスC1 には、ボキャブラリーv1 、v37、
・・・が属しており、単語クラスC2 には、ボキャブラ
リーv3 、v15、・・・が属しており、単語クラスC3
には、ボキャブラリーv2 、v4 、・・・が属してお
り、単語クラスC4 には、ボキャブラリーv 7 、v9 、
・・・が属しており、単語クラスC5 には、ボキャブラ
リーv6 、v 8 、v26、vV 、・・・が属しており、単
語クラスC6 には、ボキャブラリーv 6 、v23、・・・
が属しており、単語クラスC7 には、ボキャブラリーv
5 、v 10、・・・が属しているものとする。
(w1 w2 w3 w4 ・・・wT )において、例えば、単
語w1 が示すボキャブラリーとしての単語がv15、単語
w2 が示すボキャブラリーとしての単語がv2 、単語w
3 が示すボキャブラリーとしての単語がv23、単語w4
が示すボキャブラリーとしての単語がv4 、単語w5 が
示すボキャブラリーとしての単語がv5 、単語w6 が示
すボキャブラリーとしての単語がv15、単語w7 が示す
ボキャブラリーとしての単語がv5 、単語w8 が示すボ
キャブラリーとしての単語がv26、単語w9 が示すボキ
ャブラリーとしての単語がv37、単語w10が示すボキャ
ブラリーとしての単語がv2 、・・・、単語wT が示す
ボキャブラリーとしての単語がv8 であるとする。
スC2 に属しているので、単語w1は単語クラスC2 に
マッピングされ、ボキャブラリーv2 は単語クラスC3
に属しているので、単語w2 は単語クラスC3 にマッピ
ングされ、ボキャブラリーv 23は単語クラスC6 に属し
ているので、単語w3 は単語クラスC6 にマッピングさ
れ、ボキャブラリーv4 は単語クラスC3 に属している
ので、単語w4 は単語クラスC3 にマッピングされ、ボ
キャブラリーv5 は単語クラスC7 に属しているので、
単語w5 は単語クラスC7 にマッピングされ、ボキャブ
ラリーv15は単語クラスC2 に属しているので、単語w
6 は単語クラスC2 にマッピングされ、ボキャブラリー
v5 は単語クラスC7 に属しているので、単語w7 は単
語クラスC7 にマッピングされ、ボキャブラリーv26は
単語クラスC5 に属しているので、単語w8 は単語クラ
スC5 にマッピングされ、ボキャブラリーv37は単語ク
ラスC1 に属しているので、単語w9 は単語クラスC1
にマッピングされ、ボキャブラリーv2 は単語クラスC
3 に属しているので、単語w10は単語クラスC3 にマッ
ピングされ、・・・、ボキャブラリーv8 は単語クラス
C5 に属しているので、単語wT は単語クラスC5 にマ
ッピングされる。
列(w1 w2 w3 w4 ・・・wT )が、C個の単語クラ
ス{C1 、C2 、C3 、C4 、・・・、CC }によりマ
ッピングされた結果として、テキストデータの単語クラ
スの一次元列(C2 C3 C6C3 C7 C2 C7 C5 C1
C3 ・・・C5 )が1対1対応で生成される。
トデータの単語クラスの一次元列においての単語クラス
間の粘着度が全て所定値以上の単語クラス列を、テキス
トデータの単語クラスの一次元列から抽出する。ここ
で、単語クラス間の粘着度は、単語クラス列を構成する
単語クラス間のつながりの強さを示す指標であり、この
粘着度を表現するものとして、例えば、相互情報量M
I、相関係数、コサインメジャー、liklihood
ratioなどがある。
して、相互情報量MIを用いることにより、テキストデ
ータの単語クラスの一次元列から単語クラス列を抽出す
る場合を例にとる。
出された単語クラス列の一例を示す図である。図5にお
いて、テキストデータの単語の一次元列(w1 w2 w3
w4 w5 w6w7 ・・・wT )に対してマッピングされ
た結果として、テキストデータの単語クラスの一次元列
(C2 C3 C6 C3 C7 C2 C7 ・・・C5 )が1対1
対応で生成されているものとする。このテキストデータ
の単語クラスの一次元列(C2C3 C6 C3 C7 C2 C
7 ・・・C5 )から、隣接する2つの単語クラス
(Ci、Cj )を順次に取り出し、隣接する2つの単語
クラス(Ci 、Cj )についての相互情報量MI
(Ci 、Cj )を、以下の(2)式により計算する。
いての相互情報量MI(Ci 、Cj )が所定のしきい値
TH以上の場合、これら隣接する2つの単語クラス(C
i 、Cj )をクラスチェーンで結んで互いに関連づけ
る。
語クラス(C2 、C3 )についての相互情報量MI(C
2 、C3 )、隣接する2つの単語クラス(C3 、C6 )
についての相互情報量MI(C3 、C6 )、隣接する2
つの単語クラス(C6 、C3)についての相互情報量M
I(C6 、C3 )、隣接する2つの単語クラス(C3、
C7 )についての相互情報量MI(C3 、C7 )、隣接
する2つの単語クラス(C7 、C2 )についての相互情
報量MI(C7 、C2 )、隣接する2つの単語クラス
(C2 、C7 )についての相互情報量MI(C2 、
C7 )、・・・を(2)式により順次に計算する。
相互情報量MI(C3 、C7 )、相互情報量MI
(C7 、C2 )、・・・がしきい値TH以上で、相互情
報量MI(C3 、C6 )、相互情報量MI(C6 、
C3 )、相互情報量MI(C2 、C7 )、・・・がしき
い値THより小さい場合、隣接する2つの単語クラス
(C2 、C 3 )、(C3 、C7 )、(C7 、C2 )、・
・・をそれぞれクラスチェーンで結ぶことにより、単語
クラス列C2 −C3 、C3 −C7 −C2 、・・・を抽出
する。
機能的な構成の一例を示すブロック図である。図6にお
いて、単語クラス取出部30は、テキストデータの単語
クラスの一次元列から、隣接して存在する2つの単語ク
ラス(Ci 、Cj )を順次に取り出す。
部30により取り出した2つの単語クラス(Ci 、
Cj )の相互情報量MI(Ci 、Cj )を(2)式によ
り算出する。
MI(Ci 、Cj )が所定のしきい値以上の2つの単語
クラス(Ci 、Cj )をクラスチェーンで結ぶ。図1の
トークン付与手段4は、単語クラス列抽出手段3により
クラスチェーンで結ばれた単語クラス列にトークンを付
与する。
れたトークンの一例を示す図である。図7において、ク
ラスチェーンで結ばれた単語クラス列は、例えば、C1
−C 3 、C1 −C7 、・・・、C2 −C3 、C2 −
C11、・・・、C300 −C32、・・・、C1 −C3 −C
80、C1 −C4 −C5 、C3 −C7 −C2 、・・・、C
1−C9 −C11−C32、・・・とする。この場合、単語
クラス列C1 −C3 に対してトークンt1 を付与し、単
語クラス列C1 −C7 に対してトークンt2 を付与し、
・・・、単語クラス列C2 −C3 に対してトークンt3
を付与し、単語クラス列C2 −C11に対してトークンt
4 を付与し、・・・、単語クラス列C300 −C32に対し
てトークンt5 を付与し、、・・・、単語クラス列C1
−C3 −C80に対してトークンt6 を付与し、単語クラ
ス列C1 −C4 −C5 に対してトークンt7 を付与し、
単語クラス列C3 −C7 −C2 に対してトークンt8 を
付与し、・・・、単語クラス列C1 −C9 −C11−C32
に対してトークンt9 を付与する。
キストデータの単語の一次元列(w 1 w2 w3 w4 w5
w6 w7 ・・・wT )のうち、単語クラス列抽出手段4
により抽出された単語クラス列に属する単語列をトーク
ンで置換することにより、テキストデータの単語・トー
クンの一次元列を生成する。
の一次元列の一例を示す図である。図8において、テキ
ストデータの単語の一次元列(w1 w2 w3 w4 w5 w
6w7 ・・・wT )に対してマッピングされた結果とし
て、テキストデータの単語クラスの一次元列(C2 C3
C6 C3 C7 C2 C7 ・・・C5 )が1対1対応で生成
されているものとし、クラスチェーンで結ばれた単語ク
ラス列C2 −C3 、C3 −C7 −C2 、・・・に対し
て、図7に示すように、トークンt3 、t8 、・・・が
付与されているものとする。
クラス列C2 −C3 に属するテキストデータの単語列
(w1 w2 )をトークンt3 で置き換え、クラスチェー
ンで結ばれた単語クラス列C3 −C7 −C2 に属するテ
キストデータの単語列(w4 w 5 w6 )をトークンt8
で置き換えることにより、テキストデータの単語・トー
クンの一次元列(t3 w3 t8 w7 ・・・wT )を生成
する。
の一次元列の一例を英文を例にとって示す図である。図
9(b)のテキストデータの単語の一次元列(w1 w2
w3 w4 w5 w6 w 7 w8 w9 w10w11w12w13w14w
15)として、図9(a)の“He wentto th
e apartment by bus and sh
e went to New York by pla
ne”が対応しているものとし、この単語の一次元列
(w1 w2 w3 w4 w5 w6 w7 w8 w9 w10w11w12
w13w 14w15)に1対1で対応する単語クラスの一次元
列が図9(c)の(C5 C90C 3 C21C18C101 C32C
2 C5 C90C3 C63C28C101 C32)で与えられるもの
とする。
C21C18C101 C32C2 C5 C90C 3 C63C28C101 C
32)において、隣接する2つの単語クラス(Ci 、
Cj )の相互情報量MI(Ci 、Cj )を計算し、相互
情報量MI(C63、C28)が所定のしきい値TH以上、
相互情報量MI(C5 、C90)、MI(C90、C3 )、
MI(C3 、C21)、MI(C21、C18)、MI
(C18、C101 )、MI(C101、C32)、MI
(C32、C2 )、MI(C2 、C5 )、MI(C5 、C
90)、MI(C90、C3 )、MI(C3 、C63)、MI
(C28、C101)及びMI(C101 、C32)が所定のしき
い値THより小さい場合、隣接する2つの単語クラス
(C63、C28)が、図9(d)に示すように、クラスチ
ェーンで結ばれる。
クラス(C63、C28)はトークンt 1 に置き換えられ、
図9(e)に示すように、単語・トークンの一次元列
(w1w2 w3 w4 w5 w6 w7 w8 w9 w10w11t1
w14w15)が生成される。
ストデータの単語・トークンの一次元列のN個の単語の
集合{w1 、w2 、w3 、w4 、・・・、wN }又はL
個のトークンの集合{t1 、t2 、t3 、t4 、・・
・、tL }を分割することにより、単語とトークンとが
混在して存在するD個の単語・トークンクラス{T1 、
T2 、T3 、T4 、・・・、TD }を生成する。
クンを付与された単語クラス列が1つの単語のようにみ
なされ、テキストデータに含まれる単語{w1 、w2 、
w3、w4 、・・・、wN }とトークン{t1 、t2 、
t3 、t4 、・・・、tL }とを同等に取り扱うことが
できるので、単語{w1 、w2 、w3 、w4 、・・・、
wN }とトークン{t1 、t2 、t3 、t4 、・・・、
tL }との区別なく分類処理を行うことができる図10
は、図1の単語・トークン分類手段6の機能的な構成を
示すブロック図である。
は、テキストデータの単語・トークン列から互いに異な
る単語と互いに異なるトークンとを抽出し、所定の出現
頻度を有するN個の単語{w1 、w2 、w3 、w4 、・
・・、wN }とL個のトークン{t1 、t2 、t3 、t
4 、・・・、tL }とのそれぞれに固有の単語・トーク
ンクラス{T1 、T2 、T3 、T4 、・・・、TY }を
割り当てる。
の集合{T1 、T2 、T3 、T4 、・・・、TM }から
2つの単語・トークンクラス{Ti 、Tj }を取り出し
て仮マージする。
ータの仮マージされた単語・トークンクラス{T1 、T
2 、T3 、T4 、・・・、TM-1 }についての平均相互
情報量AMIを(1)式により算出する。この場合、M
個の単語クラス・トークンクラスの集合{T1 、T2 、
T3 、T4 、・・・、TM }から、2つの単語・トーク
ンクラス{Ti 、Tj }を取り出だす取り出しかたは、
M(M−1)/2個だけ存在するので、M(M−1)/
2回の平均相互情報量AMIの計算を行う必要がある。
れたM(M−1)/2個の平均相互情報量AMIの基づ
いて、平均相互情報量AMIを最大とする2つの単語・
トークンクラス{Ti 、Tj }を単語クラス・トークン
クラスの集合{T1 、T2 、T3 、T4 、・・・、
TM }から取り出して本マージする。このことにより、
本マージされたいずれかの単語・トークンクラス
{Ti 、Tj }に属する単語及びトークンは、同一の単
語クラス・トークンクラスに分類される。
クラスの中のトークンを、単語・トークン列生成手段5
により置換された単語列に逆置換して連語を生成する。
図11は、クラスチェーンと連語との関係を説明する図
である。
300 と単語クラスC32とがクラスチェーンで結ばれ、こ
のクラスチェーンで結ばれた単語クラス列C300 −C32
にトークンt5 が付与されているとする。また、単語
“Toyota”、“Nissan”、“GM”・・・
などのA個の単語が単語クラスC300 に属し、単語“c
ar”、“track”、“wagon”・・・などの
B個の単語が単語クラスC 32に属しているものとする。
(b)に示すように、“Toyotacar”、“To
yota track”、“Toyota wago
n”、“Nissan car”、“Nissan t
rack”、“Nissanwagon”、“GM c
ar”、“GM track”、“GM wago
n”、・・・など、単語クラスC300 に属するA個の単
語と単語クラスC32に属するB個の単語との順列の数A
×Bだけ連語の候補が生成される。この連語の候補の中
にはテキストデータに存在しない連語も含まれているの
で、テキストデータをスキャンすることにより、これら
の連語の候補からテキストデータに存在する連語のみを
抽出する。例えば、テキストデータには、“Nissa
n track”及び“Toyota wagon”は
存在するが、“Toyota car”、“Toyot
a track”、 “Nissan car”、“N
issan wagon”、“GM car”、“GM
track”及び“GM wagon”は存在しない
場合、図11(c)に示すように、“Nissan t
rack”及び“Toyota wagon”のみが連
語としてテキストデータから抽出される。
C2 、C3 、C4 、・・・、CC }、D個の単語・トー
クンクラス{T1 、T2 、T3 、T4 、・・・、TD }
及びD個の単語・連語クラス{R1 、R2 、R3 、
R4 、・・・、RD }の一例を示す図である。
{C1 、C2 、C3 、C4 、・・・、CC }が、図1の
単語分類手段1により生成され、例えば、“he”、
“she”、“it”・・・などの単語が単語クラスC
5 に属し、“York”、“London”・・・など
の単語が単語クラスC28に属し、“car”、“tra
ck”、“wagon”・・・などの単語が単語クラス
C32に属し、“new”、“old”・・・などの単語
が単語クラスC63に属し、“Toyota”、“Nis
san”、“GM”・・・などの単語が単語クラスC
300 に属しているものとする。また、テキストデータに
は、“New York”、“Nissantrac
k”及び“Toyota wagon”の連語が多数存
在しているものとする。
C3 、C4 、・・・、CC }をテキストデータの単語の
一次元列(w1 w2 w3 w4 ・・・wT )に1対1対応
でマッピングした単語クラスの一次元列において、図1
の単語クラス列抽出手段3は、“new”が属する単語
クラスC63と“York”が属する単語クラスC28との
粘着度が大きいと判断し、単語クラスC63と単語クラス
C28とをクラスチェーンで結ぶ。また、単語クラス列抽
出手段3は、“Toyota”及び“Nissan”が
属する単語クラスC300 と“track”及び“wag
on”が属する単語クラスC32との粘着度が大きいと判
断し、単語クラスC300 と単語クラスC32とをクラスチ
ェーンで結ぶ。
−C28にトークンt1 を付与し、単語クラス列C300 −
C32にトークンt5 を付与する。単語・トークン列生成
手段5は、テキストデータの単語の一次元列(w1 w2
w3 w4 ・・・wT )に存在する“New York”
をトークンt1 で置き換え、テキストデータの単語の一
次元列(w1 w2 w3 w4 ・・・wT )に存在する“N
issan track”及び“Toyota wag
on”をトークンt5 で置き換えた単語・トークンの一
次元列を生成する。
トークンの一次元列に存在する“he”、“she”、
“it”、“London”、“car”、“trac
k”、“wagon”・・・などの単語及び“t1 ”、
“t5 ”などのトークンについての分類処理を行い、図
12(b)のD個の単語・トークンクラス{T1 、
T 2 、T3 、T4 、・・・、TD }を生成する。
T3 、T4 、・・・、TD }において、例えば、“h
e”、“she”、“it”・・・などの単語やトーク
ンが単語・トークンクラスT5 に属し、“t1 ”、“L
ondon”・・・などの単語やトークンが単語・トー
クンクラスT28に属し、“car”、“track”、
“wagon”、“t5 ”・・・などの単語やトークン
が単語・トークンクラスT32に属し、“new”、“o
ld”・・・などの単語やトークンが単語・トークンク
ラスT63に属し、“Toyota”、“Nissa
n”、“GM”・・・などの単語やトークンが単語・ト
ークンクラスT300 に属している。このように、単語・
トークンクラス{T1 、T2 、T3 、T4 、・・・、T
D }には、単語とトークンとの区別なく、単語とトーク
ンとが混在して分類されている。
トークンクラス{T1 、T2 、T3、T4 、・・・、T
D }に存在する“t1 ”、“t5 ”などのトークンを、
テキストデータの単語の一次元列に存在する連語で逆置
換することにより、図12(c)の単語・連語クラス
{R1 、R2 、R3 、R4 、・・・、RD }を生成す
る。例えば、単語・トークンクラスT28に属しているト
ークンt1 は、 単語・トークン列生成手段5により、
テキストデータの単語の一次元列に存在する“New
York”と置換されたものなので、このトークンt1
を“New York”で逆置換することにより、単語
・連語クラスR28を生成し、単語・トークンクラスT32
に属しているトークンt5 は、単語・トークン列生成手
段5により、テキストデータの単語の一次元列に存在す
る“Nissan track”及び“Toyota
wagon”と置換されたものなので、このトークンt
5 を“Nissan track”及び“Toyota
wagon”で逆置換することにより、単語・連語ク
ラスR32を生成する。
を実現するシステム構成を示すブロック図である。図1
3において、単語・連語分類処理部41のメモリインタ
ーフェース42、46、CPU43、ROM44、ワー
クRAM45、RAM47、ドライバ71及び通信イン
タフェース72はバス48を介して互いに接続され、テ
キストデータ40が単語・連語分類処理部41に入力さ
れると、ROM44に格納されているプログラムに従っ
て、CPU43はテキストデータ40を処理し、テキス
トデータ40の単語及び連語の分類処理を行う。テキス
トデータ40の単語及び連語の分類処理結果は、単語・
連語辞書49に格納される。なお、テキストデータ40
や単語及び連語の分類処理結果を通信インタフェース7
2から通信ネットワーク73を介して送信したり、受信
したりすることも可能である。
グラムを、ハードディスク74、ICメモリカード7
5、磁気テープ76、フロッピーディスク77またはC
D−ROMやDVD−ROMなどの光ディスク78によ
る記憶媒体からRAM47にロードした後、このプログ
ラムをCPU43で実行させるようにしてもよい。
ログラムを、通信インタフェース72を介して通信ネッ
トワーク73から取り出すこともできる。通信インタフ
ェース72と接続される通信ネットワーク73として、
例えば、LAN(LocalArea Networ
k)、WAN(Wide Area Networ
k)、インターネット、アナログ電話網、デジタル電話
網(ISDN:Integral Service D
igital Network)、PHS(パーソナル
ハンディシステム)や衛星通信などの無線通信網などを
用いることが可能である。
の動作を示すフローチャートである。図14において、
まず、ステップS1に示すように、単語クラスタリング
処理を行う。この単語クラスタリング処理では、複数の
単語の一次元列(w1 w2 w 3 w4 ・・・wT )として
のテキストデータから、互いに異なるV個の単語
{v 1 、v2 、v3 、v4 、・・・、vV }を抽出し、
V個の単語の集合{v1 、v 2 、v3 、v4 、・・・、
vV }をC個の単語クラス{C1 、C2 、C3 、C4、
・・・、CC }に分割する第1のクラスタリング処理を
行う。
v4 、・・・、vV }それぞれに単語クラス{C1 、C
2 、C3 、C4 、・・・、CV }を割り当ててから、V
個の単語クラス{C1 、C2 、C3 、C4 、・・・、C
V }についてマージ処理を行うことにより、V個の単語
クラス{C1 、C2 、C3 、C4 、・・・、CV }の個
数を1つずつ減らしてC個の単語クラス{C1 、C2 、
C3 、C4 、・・・、CC }を生成する場合、Vが70
00もの数となって大きなものとなるときは、マージ処
理を行うための(1)式の平均相互情報量AMIの計算
回数が莫大なものとなり、現実的ではなくなる。このた
め、ウィンドウ処理を行って、マージ処理を行う単語ク
ラスの数を減らすようにする。
ある。図15(a)において、テキストデータのV個の
単語{v1 、v2 、v3 、v 4 、・・・、vV }それぞ
れに割り当てられたV個の単語クラス{C1 、C2 、C
3 、C4 、・・・、CV }のうち、テキストデータでの
出現頻度の大きい単語に割り当てられたC+1個の単語
クラス{C1 、C2 、C3 、C4 、・・・、C C 、C
C+1 }を取り出し、このC+1個の単語クラス{C1 、
C2 、C3 、C4、・・・、CC 、CC+1 }についての
マージ処理を行う。
の単語クラス{C1 、C2 、C3 、C4 、・・・、
CM }は、ウィンドウ内のC+1個の単語クラス
{C1 、C2 、C3 、C4 、・・・、CC 、CC+1 }に
ついてのマージ処理を行った場合、M個の単語クラス
{C1 、C2 、C3 、C4 、・・・、CM }の数が1つ
減ってM−1個の単語クラス{C1 、C2 、C3 、
C4 、・・・、CM-1 }となるとともに、ウィンドウ内
のC+1個の単語クラス{C1 、C2 、C3 、C4 、・
・・、C C 、CC+1 }の数も1つ減ってC個の単語クラ
ス{C1 、C2 、C3 、C4 、・・・、CC }となる。
ィンドウ外の単語クラス{CC+1 、・・・、CM-1 }の
うち、テキストデータでの出現頻度が最も大きい単語ク
ラスCC+1 をウィンドウ内に入れ、ウィンドウ内の単語
クラスの数が一定に保たれるようにする。
なり、図15(d)のC個の単語クラス{C1 、C2 、
C3 、C4 、・・・、CC }が生成された時に、単語ク
ラスタリング処理を終了する。
の単語クラスの個数をC+1個に設定したが、C+1個
以外のV個未満の数でもよく、また、途中で変化させる
ようにしてもよい。
ング処理を示すフローチャートである。図16におい
て、まず、ステップS10に示すように、T個の単語の
一次元列(w1 w2 w3 w4 ・・・wT )としてのテキ
ストデータに基づいて、重複を除いた全てのV個の単語
{v1 、v2 、v3 、v4 、・・・、vV }の出現頻度
を調べ、これらのV個の単語{v1 、v2 、v3 、
v4 、・・・、vV }を出現頻度の高い単語から順に並
べて、これらのV個の単語{v1 、v2 、v3 、v4 、
・・・、vV }のそれぞれをV個の単語クラス{C1 、
C2 、C3 、C4 、・・・、CV }に割り当てる。
の単語クラス{C1 、C2 、C3 、C4 、・・・、
CV }の単語のうち、出現頻度の高い単語クラスの単語
から、V個未満のC+1個の単語クラスの単語を1つの
ウィンドウ内の単語クラスの単語とする。
のウィンドウ内の単語クラスの単語の中で、全ての組み
合わせの仮ペアを作り、各仮ペアを仮マージした時の平
均相互情報量AMIを(1)式により計算する。
の組み合わせの仮ペアについての平均相互情報量AMI
のうち、最大となる平均相互情報量AMIを有する仮ペ
アを本マージすることにより、単語クラスを1つだけ減
らし、本マージ後の1つのウィンドウ内の単語クラスの
単語を更新する。
ンドウ外の単語クラスはなくなり、かつ、ウィンドウ内
の単語クラスはC個になったかどうかを判断し、この条
件が成り立たない場合、ステップS15に進み、現在の
ウィンドウよりも外側にあり、最大の出現頻度を有する
クラスの単語をウィンドウ内に入れ、ステップS12に
戻り、以上の処理を繰り返すことにより、単語クラスの
数を減少させる。
ウィンドウ外に単語クラスがなくなり、単語クラスの数
がC個となった場合、ステップS16に進み、ウィンド
ウ内のC個の単語クラス{C1 、C2 、C3 、C4 、・
・・、CC }をメモリに記憶する。
に、クラスチェーン抽出処理を行う。このクラスチェー
ン抽出処理では、ステップS1の第1のクラスタリング
処理に基づいて生成されたテキストデータの単語クラス
の一次元列において、所定のしきい値以上の相互情報量
を有する隣接する2つの単語クラスをチェーンで結ぶこ
とにより、チェーンで結ばれた単語クラス列の集合を抽
出する。
抽出処理の第1実施例を示すフローチャートである。図
17において、まず、ステップS20に示すように、テ
キストデータの単語クラスの一次元列から、互いに隣接
する2つの単語クラス(Ci 、Cj )を取り出す。
ップS20で取り出した2つの単語クラス(Ci 、
Cj )についての相互情報量MI(Ci 、Cj )を
(2)式により計算する。
ップS21で計算した相互情報量MI(Ci 、Cj )が
所定のしきい値TH以上であるかどうかを判断し、相互
情報量MI(Ci 、Cj )が所定のしきい値TH以上で
ある場合、ステップS23に進んで、ステップS20で
取り出した2つの単語クラス(Ci 、Cj )をクラスチ
ェーンで結んでメモリに格納し、相互情報量MI
(Ci 、Cj )が所定のしきい値THより小さい場合、
ステップS23をスキップする。
リに格納されているクラスチェーンで結ばれた単語クラ
スにおいて、単語クラスCi で終了しているクラスチェ
ーンが存在するかどうかを判断し、単語クラスCi で終
了しているクラスチェーンが存在する場合、ステップS
25に進んで、単語クラスCi で終了しているクラスチ
ェーンに単語クラスCj をつなぐ。
スCi で終了しているクラスチェーンが存在しない場
合、ステップS25をスキップする。次に、ステップS
26に示すように、テキストデータの単語クラスの一次
元列から、互いに隣接する2つの単語クラス(Ci 、C
j )を全て取り出したかどうかを判断し、互いに隣接す
る2つの単語クラス(Ci 、Cj )を全て取り出した場
合、クラスチェーン抽出処理を終了し、互いに隣接する
2つの単語クラス(C i 、Cj )を全て取り出していな
い場合、ステップS20に戻って以上の処理を繰り返
す。
抽出処理の第2実施例を示すフローチャートである。図
18において、まず、ステップS201に示すように、
テキストデータの単語クラスの一次元列から、互いに隣
接する2つの単語クラス(Ci 、Cj )を順次に取り出
す。そして、取り出した2つの単語クラス(Ci 、
Cj )について、相互情報量MI(Ci 、Cj )を
(2)式により計算することにより、長さ2の全てのク
ラスチェーンをテキストデータの単語クラスの一次元列
から抽出する。
さ2の全てのクラスチェーンをそれぞれオブジェクトで
置き換える。ここで、オブジェクトは、上述したトーク
ンと同じものを表しているが、長さ2のクラスチェーン
に付与されたトークンを、特に、オブジェクトと呼ぶ。
キストデータのクラスの一次元列に対し、ステップS2
02でオブジェクトが付与された長さ2のクラスチェー
ンをオブジェクトで置き換え、テキストデータのクラス
とオブジェクトの一次元列を生成する。
キストデータのクラスとオブジェクトの一次元列の中に
存在する1つのオブジェクトを1つのクラスとみなし、
2つのクラス(Ci 、Cj )についての相互情報量MI
(Ci 、Cj )を(2)式により計算する。すなわち、
テキストデータのクラスとオブジェクトの一次元列にお
いての相互情報量MI(Ci 、Cj )は、互いに隣接す
る1つのクラスと1つのクラスとの間で算出される場
合、互いに隣接する1つのクラスと1つのオブジェクト
(長さ2のクラスチェーン)との間で算出される場合、
及び互いに隣接する1つのオブジェクト(長さ2のクラ
スチェーン)と1つのオブジェクト(長さ2のクラスチ
ェーン)との間で算出される場合がある。
テップS204で計算した相互情報量MI(Ci 、
Cj )が所定のしきい値TH以上であるかどうかを判断
し、相互情報量MI(Ci 、Cj )が所定のしきい値T
H以上である場合、ステップS26に進んで、ステップ
S204で取り出した互いに隣接する2つのクラス、又
は互いに隣接する1つのクラスと1つのオブジェクト、
又は互いに隣接する2つのオブジェクトをクラスチェー
ンで結び、相互情報量MI(Ci 、Cj )が所定のしき
い値THより小さい場合、ステップS206をスキップ
する。
ジェクトの一次元列において抽出されたクラスチェーン
を示す図である。図19において、互いに隣接する1つ
のクラスと1つのクラスとの間でクラスチェーンが抽出
された場合、長さ2のクラスチェーン(オブジェクト)
が生成され、互いに隣接する1つのクラスと1つのオブ
ジェクトとの間でクラスチェーンが抽出された場合、長
さ3のクラスチェーンが生成され、互いに隣接する1つ
のオブジェクトと1つのオブジェクトとの間でクラスチ
ェーンが抽出された場合、長さ4のクラスチェーンが生
成される。
うに、クラスチェーン抽出処理が所定の回数行われたか
どうかを判断し、所定の回数行われていない場合は、ス
テップS202に戻って以上の処理を繰り返す。
ブジェクトに置き換えて、相互情報量MI(Ci 、
Cj )を算出することを繰り返すことにより、任意の長
さのクラスチェーンを抽出することができる。
に、トークン置換処理を行う。このトークン置換処理で
は、ステップS2のクラスチェーン抽出処理で抽出され
た単語クラス列に固有のトークンを対応させ、この単語
クラス列に属する単語列をテキストデータの単語の一次
元列から検索し、テキストデータの単語列を対応するト
ークンで置換することにより、テキストデータについて
の単語とトークンとの一次元列を生成する。
理を示すフローチャートである。図20において、ま
ず、ステップS30に示すように、抽出されたクラスチ
ェーンを重複を除いて所定の規則でソートし、それぞれ
のクラスチェーンにトークンを対応させて、クラスチェ
ーンに名前を付ける。ここで、クラスチェーンのソート
は、例えば、ASCIIコード順で行う。
クンに対応させたクラスチェーンを1つ取り出す。次
に、ステップS32に示すように、テキストデータの単
語の一次元列の中にクラスチェーンで結ばれた単語クラ
ス列に属する単語列が存在するかどうかを判断し、クラ
スチェーンで結ばれた単語クラス列に属する単語列が存
在する場合、ステップS33に進み、テキストデータの
対応する単語列を1つのトークンで置き換え、クラスチ
ェーンで結ばれた単語クラス列に属する単語列がテキス
トデータの単語の一次元列の中に存在しなくなるまで以
上の処理を繰り返す。
ス列に属する単語列が存在しない場合、ステップS34
に進み、ステップS30でトークンに対応させた全ての
クラスチェーンについての連語・トークン置換処理が終
了したかどうかを判断し、全てのクラスチェーンについ
ての連語・トークン置換処理が終了してない場合、ステ
ップS31に戻って、新たなクラスチェーンを1つ取り
出して、以上の処理を繰り返す。
に、単語・トークンクラスタリング処理を行う。この単
語・トークンクラスタリング処理では、テキストデータ
についての単語とトークンとの一次元列において、互い
に異なる単語と互いに異なるトークンとを抽出し、単語
とトークンとが混在する集合を単語・トークンクラス
{T1 、T2 、T3 、T4 、・・・、TD }に分割する
第2のクラスタリング処理を行う。
クラスタリング処理を示すフローチャートである。図2
1において、ステップS40に示すように、ステップS
3で得られたテキストデータの単語・トークンの一次元
列を入力データとして、ステップS1の第1の単語クラ
スタリング処理と同一の方法でクラスタリングを行うこ
とより、単語・トークンクラス{T1 、T2 、T3 、T
4 、・・・、TD }を生成する。この第2のクラスタリ
ング処理では、単語とトークンは区別せず、トークンは
1つの単語として扱われる。また、生成されたそれぞれ
の単語・トークンクラス{T 1 、T2 、T3 、T4 、・
・・、TD }は、その要素として単語とトークンを含ん
でいる。
に、データ出力処理を行う。このデータ出力処理では、
テキストデータの単語の一次元列に存在する単語列のう
ち、トークンに対応するものを連語として抽出し、単語
・トークンクラス{T1 、T2、T3 、T4 、・・・、
TD }の中のトークンを連語で置換することにより、単
語と連語とが混在する集合を単語・連語クラス{R1 、
R2 、R3 、R4 、・・・、RD }に分割する第3のク
ラスタリング処理を行う。
を示すフローチャートである。図22において、まず、
ステップS50に示すように、1つの単語・トークンク
ラスTi から1つのトークンtK を取り出す。
ストデータの単語の一次元列をスキャンし、ステップS
52において、ステップS50で取り出したトークンt
K に対応するクラスチェーンで結ばれた単語クラス列に
属する単語列が存在するかどうかを判断する。そして、
トークンtK に対応するクラスチェーンで結ばれた単語
クラス列に属する単語列がテキストデータの単語の一次
元列に存在する場合、ステップS53に進んで、この単
語列を連語とみなす処理を繰り返し、テキストデータの
単語の一次元列をスキャンすることにより得られたこれ
らの連語でトークンtK を置き換える。
ーンで結ばれた単語クラス列に属する単語列がテキスト
データの単語の一次元列に存在しない場合、ステップS
54に進んで、全てのトークンについて処理が終了した
かどうかを判断し、全てのトークンについて処理が終了
していない場合、ステップS50に進んで、以上の処理
を繰り返す。
において、テキストデータの単語の一次元列(w1 w2
w3 w4 ・・・wT )のうち、単語列(w1 w2 )、
(w13w14)、・・・がトークンt1 で置換され、単語
列(w4 w5 w6 )、(w17w 18)、・・・がトークン
t2 で置換されたとすると、トークンt1 に対応する連
語として、{w1 −w2 、w13−w14、・・・}がテキ
ストデータから抽出され、トークンt2 に対応する連語
として、{w4 −w5 −w6 、w17−w18、・・・}が
テキストデータから抽出される。
集合Wi とトークンの集合Ji ={ti1、ti2、・・・
tin}からなり、トークンクラスTi が{Wi ∪Ji }
により表され、、トークンの集合Ji の中の1つのトー
クンtimが、連語の集合Vim={vim (1) 、vim (2) 、
・・・}に逆トークン置換されたとすると、1つの単語
・連語クラスRi は、
明の一実施例による単語・連語分類処理装置によれば、
単語と連語とを区別することなく分類することができ
る。
置について説明する。図23は、図1の単語・連語分類
処理装置により得られた単語・連語分類処理結果を利用
して音声認識を行う音声認識装置の構成を示すブロック
図である。
0に含まれる単語と連語とが、単語・連語分類処理部4
1により単語と連語とが混在するクラスに分類され、こ
の分類された単語と連語とが単語・連語辞書49に格納
されている。
声は、マイクロフォン50によりアナログ音声信号に変
換された後、A/D変換器51でデジタル音声信号に変
換され、特徴抽出部52に入力される。特徴抽出部52
は、デジタル音声信号に対して、例えば、LPC分析を
行い、ケプストラム係数や対数パワーなどの特徴パラメ
ータを抽出する。特徴抽出部52で抽出された特徴パラ
メータは、音声認識部54に出力され、音素隠れマルコ
フモデルなどの言語モデル55を参照するとともに、単
語・連語辞書49に格納されている単語と連語との分類
結果を参照しながら、単語及び連語ごとに音声認識を行
う。
して音声認識を行う場合の例を示す図である。図24に
おいて、「本日は晴天なり」と発声された発音音声がマ
イクロフォン50に入力され、この発音音声に対して音
声モデルを適用するとにより、例えば、「本日は晴天な
り」という認識結果と「本日は静電なり」という認識結
果とが得られる。これらの音声モデルによる認識結果に
対し、言語モデルによる処理を行って単語・連語辞書4
9の参照を行い、「晴天なり」という連語が単語・連語
辞書49に登録されている場合、「本日は晴天なり」と
いう認識結果に対しては高い確率が与えられ、「本日は
静電なり」という認識結果に対しては低い確率が与えら
れる。
よる音声認識装置によれば、単語・連語辞書49を参照
して音声認識を行うことにより、より正確な認識処理が
可能になる。
置について説明する。図25は、図1の単語・連語分類
処理装置により得られた単語・連語分類処理結果を利用
して機械翻訳を行う機械翻訳装置の構成を示すブロック
図である。
0に含まれる単語と連語とが、単語・連語分類処理部4
1により単語と連語とが混在するクラスに分類され、こ
の分類された単語と連語とが単語・連語辞書49に格納
されている。また、用例原文とその用例原文に対する用
例訳文とが、それぞれ対応させて用例文集60に格納さ
れている。
語・連語辞書49を参照しながら入力された原文の単語
が属するクラスを検索し、そのクラスと同一のクラスに
属する単語又は連語により構成される用例原文を用例文
集60から検索する。用例文集60から検索された用例
原文及びその用例訳文は、用例適用部62に入力され、
用例訳文の中の訳語を、入力された原文の単語に対する
訳語に置換することにより、入力された原文に対する訳
文を生成する。
して音声認識を行う場合の例を示す図である。図26に
おいて、“Toyota”と“Kohlberg Kr
avis Robert & Co.”とは同一のクラ
スに属し、“gained”と“lost”とは同一の
クラスに属し、“2”と“1”とは同一のクラスに属
し、“30 1/4”と“80 1/2”とは同一のク
ラスに属しているものとする。
d 2 to 30 1/4.”が入力されると、用例
原文として、用例文集60から“Kohlberg K
ravis Robert & Co. lost 1
to 80 1/2.”が検索されるとともに、その
用例原文に対する用例訳文「Kohlberg Kra
vis Robert & Co.社は、1ドル値を下
げて終値80 1/2ドルだった。」も検索される。
Kravis Robert &Co.”と同一のク
ラスに属している入力原文の原語“Toyota”に対
する訳語「トヨタ」で、用例訳文の訳語「Kohlbe
rg Kravis Robert & Co.社」を
置き換え、用例原文の原語“lost”と同一のクラス
に属している入力原文の原語“gained”に対する
訳語「上げて」で、用例訳文の訳語「下げて」を置き換
え、用例訳文の数値“1”を“2”で置き換え、用例訳
文の数値“80 1/2”を“30 1/4”で置き換
えることにより、入力原文に対する訳文「トヨタは、2
ドル値を上げて終値30 1/2ドルだった。」を出力
する。
よる機械翻訳装置によれば、単語・連語辞書49を参照
して機械翻訳を行うことにより、より正確な翻訳処理が
可能になる。
が、本発明は上述した実施例に限定されるものではな
く、本発明の技術的思想の範囲内で他の様々な変更が可
能である。例えば、上述した実施例では、単語・連語分
類処理装置を音声認識装置及び機械翻訳装置に適用した
場合について説明したが、単語・連語分類処理装置を文
字認識装置に用いるようにしてもよい。また、上述した
実施例では、単語と連語とを混在される分類する場合に
ついて説明したが、連語のみを抽出し、この抽出した連
語を分類するようにしてもよい。
語分類処理装置によれば、テキストデータに含まれる単
語と連語とを一緒に分類して、単語と連語とが混在する
クラスを生成することにより、単語と単語とをまとめて
分類するだけでなく、単語と連語あるいは連語と連語と
をまとめて分類することができ、単語と連語あるいは連
語と連語との対応関係や類似度を容易に判別することが
できる。
データの単語クラス列にトークンを付与して単語クラス
列を1つの単語とみなし、テキストデータに含まれる単
語とトークンを付与された単語クラス列とを同等に取り
扱ってこれらを分類してから、テキストデータに存在す
る単語列で対応する単語クラス列を置き換えるようにし
たので、単語と連語との区別なく分類処理を行うことが
できるとともに、テキストデータからの連語の抽出を高
速に行うことができる。
キストデータの単語列を構成する個々の単語を、その単
語が属する単語クラスで置換し、テキストデータにおい
て出現する確率が所定値以上の単語クラス列を抽出して
から、テキストデータに存在する連語を抽出することに
より、連語を高速に抽出することができる。
語と連語あるいは連語と連語の対応関係や類似度を用い
ながら音声認識を行うことができ、正確な処理が可能に
なる。
例文集に格納されている用例原文の単語が連語に置き換
わった原文が入力された場合においても、入力された原
文に用例原文を適用して機械翻訳を行うことができ、単
語と連語あるいは連語と連語の対応関係や類似度を用い
た正確な機械翻訳が可能になる。
装置の機能的な構成を示すブロック図である。
装置の単語クラスタリング処理を説明する図である。
ック図である。
装置の単語クラス列生成処理を説明する図である。
装置のクラスチェーン抽出処理を説明する図である。
示すブロック図である。
装置によるクラスチェーンとトークンとの関係を示す図
である。
装置のトークン置換処理を説明する図である。
装置によるトークン置換処理の英文例を示す図である。
成を示すブロック図である。
理装置によるトークンと連語の関係を示す図である。
理装置による単語・連語分類処理結果を示す図である。
理装置のシステム構成を示すブロック図である。
理装置の単語・連語分類処理を示すフローチャートであ
る。
理装置のウインドウ処理を説明する図である。
理装置の単語クラスタリング処理を示すフローチャート
である。
ラスチェーン抽出処理の第1実施例を示すフローチャー
トである。
ラスチェーン抽出処理の第2実施例を示すフローチャー
トである。
ラスチェーン抽出処理の第2実施例を説明する図であ
る。
理装置のトークン置換処理を示すフローチャートであ
る。
理装置の単語・トークンクラスタリング処理を示すフロ
ーチャートである。
理装置のデータ出力処理を示すフローチャートである。
能的な構成を示すブロック図である。
明する図である。
能的な構成を示すブロック図である。
明する図である。
Claims (17)
- 【請求項1】 複数の単語の一次元列としてのテキスト
データから、互いに異なるV個の単語を抽出し、前記V
個の単語の集合をC個の単語クラスに分割した第1のク
ラスタリングを生成するステップと、 前記第1のクラスタリングに基づいて生成された前記テ
キストデータの単語クラスの一次元列において、隣接す
る単語クラス間の粘着度が全て所定値以上の単語クラス
列の集合を抽出するステップと、 前記単語クラス列に固有のトークンを対応させ、前記単
語クラス列に属する単語列を前記テキストデータから検
索し、前記テキストデータの単語列を対応するトークン
で置換することにより、前記テキストデータについての
単語とトークンとの一次元列を生成するステップと、 前記テキストデータについての単語とトークンとの一次
元列において、互いに異なる単語と互いに異なるトーク
ンとを抽出し、前記単語と前記トークンとが混在する集
合を単語・トークンクラスに分割した第2のクラスタリ
ングを生成するステップと、 前記テキストデータに存在する単語列のうち、前記トー
クンに対応するものを連語として抽出し、前記単語・ト
ークンクラスの中のトークンを前記連語で置換すること
により、前記単語と前記連語とが混在する集合を単語・
連語クラスに分割した第3のクラスタリングを生成する
ステップとを備えることを特徴とする単語・連語分類処
理方法。 - 【請求項2】 前記第1のクラスタリングは、前記単語
クラスの平均相互情報量に基づいて生成されることを特
徴とする請求項1に記載の単語・連語分類処理方法。 - 【請求項3】 前記第2のクラスタリングは、前記単語
・トークンクラスの平均相互情報量に基づいて生成され
ることを特徴とする請求項1に記載の単語・連語分類処
理方法。 - 【請求項4】 テキストデータに含まれる単語を分類し
た単語クラスを生成するステップと、 前記単語クラスを前記テキストデータの単語の一次元列
にマッピングして単語クラスの一次元列を生成するステ
ップと、 前記テキストデータの単語クラスの一次元列において、
隣接する単語クラス間の粘着度が全て所定値以上の単語
クラス列を、前記テキストデータの単語クラスの一次元
列から抽出するステップと、 前記テキストデータに含まれる単語と前記単語クラス列
とを一緒に分類するステップと、 前記単語クラス列を構成する個々の単語クラスから、前
記テキストデータに隣接して存在する個々の単語を別々
に取り出して連語を抽出するステップと、 前記単語クラス列を前記単語クラス列に属する連語で置
換するステップとを備えることを特徴とする単語・連語
分類処理方法。 - 【請求項5】 テキストデータに含まれる単語を分類し
た単語クラスを生成するステップと、 前記単語クラスを前記テキストデータの単語の一次元列
にマッピングして単語クラスの一次元列を生成するステ
ップと、 前記テキストデータの単語クラスの一次元列において、
隣接する単語クラス間の粘着度が全て所定値以上の単語
クラス列を、前記テキストデータの単語クラスの一次元
列から抽出するステップと、 前記単語クラス列を構成する個々の単語クラスから、前
記テキストデータに隣接して存在する個々の単語を別々
に取り出して連語を抽出するステップとを備えることを
特徴とする連語抽出方法。 - 【請求項6】 テキストデータの単語列から互いに異な
る単語を抽出し、抽出された前記単語の集合を分割して
単語クラスを生成する単語分類手段と、 前記テキストデータの単語の一次元列を構成する個々の
単語を、前記単語が属する前記単語クラスで置換するこ
とにより、前記テキストデータの単語クラスの一次元列
を生成する単語クラス列生成手段と、 前記テキストデータの単語クラスの一次元列において、
隣接する単語クラス間の粘着度が全て所定値以上の単語
クラス列を、前記テキストデータの単語クラスの一次元
列から抽出する単語クラス列抽出手段と、 前記単語クラス列抽出手段により抽出された各単語クラ
ス列にトークンを付与するトークン付与手段と、 前記テキストデータの単語の一次元列のうち、前記単語
クラス列抽出手段により抽出された単語クラス列に属す
る単語列を前記トークンで置換することにより、前記テ
キストデータの単語・トークンの一次元列を生成する単
語・トークン列生成手段と、 前記テキストデータの単語・トークンの一次元列に含ま
れる単語とトークンとが混在する集合を分割して単語・
トークンクラスを生成する単語・トークン分類手段と、 前記単語・トークンクラスの中のトークンを、前記単語
・トークン列生成手段により置換された単語列に逆置換
して連語を生成する連語置換手段とを備えることを特徴
とする単語・連語分類処理装置。 - 【請求項7】 前記単語分類手段は、 前記テキストデータの単語の一次元列から互いに異なる
単語を抽出し、所定の出現頻度を有する単語のそれぞれ
に固有の単語クラスを割り当てる初期化クラス設定部
と、 単語クラスの集合から2つの単語クラスを取り出して仮
マージする仮マージ部と、 前記テキストデータの仮マージされた単語クラスについ
ての平均相互情報量を算出する平均相互情報量算出部
と、 前記単語クラスの集合のうち、前記平均相互情報量が最
大である2つの単語クラスを本マージする本マージ部と
を備えることを特徴とする請求項6に記載の単語・連語
分類処理装置。 - 【請求項8】 前記単語クラス列抽出手段は、 前記テキストデータの単語クラスの一次元列から、隣接
して存在する2つの単語クラスを順次に取り出す単語ク
ラス取出部と、 前記単語クラス取出部により取り出した2つの単語クラ
スの相互情報量を算出する相互情報量算出部と、 前記相互情報量が所定のしきい値以上の2つの単語クラ
スをクラスチェーンで結ぶクラスチェーン結合部とを備
えることを特徴とする請求項6に記載の単語・連語分類
処理装置。 - 【請求項9】 前記単語・トークン分類手段は、 前記テキストデータの単語・トークンの一次元列から互
いに異なる単語と互いに異なるトークンとを抽出し、所
定の出現頻度を有する単語とトークンとのそれぞれに固
有の単語・トークンクラスを割り当てる初期化クラス設
定部と、 単語・トークンクラスの集合から2つの単語・トークン
クラスを取り出して仮マージする仮マージ部と、 前記テキストデータの仮マージされた単語・トークンク
ラスについての平均相互情報量を算出する平均相互情報
量算出部と、 前記単語・トークンクラスの集合のうち、前記平均相互
情報量が最大である2つの単語・トークンクラスを本マ
ージする本マージ部とを備えることを特徴とする請求項
6に記載の単語・連語分類処理装置。 - 【請求項10】 テキストデータから連語を抽出する連
語抽出手段と、 前記テキストデータに含まれる単語と連語とを一緒に分
類して、単語と連語とが混在するクラスを生成する単語
・連語分類手段とを備えることを特徴とする単語・連語
分類処理装置。 - 【請求項11】 前記クラスは、前記クラスの平均相互
情報量に基づいて生成されることを特徴とする請求項1
0に記載の単語・連語分類処理装置。 - 【請求項12】 テキストデータに含まれる単語を分類
して単語クラスを生成する単語分類手段と、 前記テキストデータの単語の一次元列を構成する個々の
単語を、前記単語が属する前記単語クラスで置換するこ
とにより、前記テキストデータの単語クラスの一次元列
を生成する単語クラス列生成手段と、 前記テキストデータの単語クラスの一次元列において、
隣接する単語クラス間の粘着度が全て所定値以上の単語
クラス列を、前記テキストデータの単語クラスの一次元
列から抽出する単語クラス列抽出手段と、 前記単語クラス列を構成する個々の単語クラスから、前
記テキストデータに隣接して存在する個々の単語を別々
に取り出して連語を抽出する連語抽出手段とを備えるこ
とを特徴とする連語抽出装置。 - 【請求項13】 前記単語クラスは、前記単語クラスの
平均相互情報量に基づいて生成されることを特徴とする
請求項12に記載の連語抽出装置。 - 【請求項14】 所定のテキストデータに含まれる単語
と連語とを、単語と連語とが混在するクラスに分類して
格納している単語・連語辞書と、 前記単語・連語辞書と所定の隠れマルコフモデルとを参
照することにより、発音音声を音声認識する音声認識手
段とを備えることを特徴とする音声認識装置。 - 【請求項15】 所定のテキストデータに含まれる単語
と連語とを、単語と連語とが混在するクラスに分類して
格納している単語・連語辞書と、 用例原文と前記用例原文に対する用例訳文とを対応させ
て格納している用例文集と、 入力された原文の単語が属するクラスと同一のクラスに
属する単語又は連語により構成される用例原文を前記用
例文集から検索する用例検索手段と、 前記用例原文に対する用例訳文の中の訳語を、入力され
た原文の単語に対する訳語に置換することにより、前記
入力された原文に対する訳文を生成する用例適用手段と
を備えることを特徴とする機械翻訳装置。 - 【請求項16】 所定のテキストデータに含まれる単語
と連語とを、単語と連語とが混在するクラスに分類して
格納している単語・連語記憶媒体であって、 前記クラスは、前記クラスの平均相互情報量に基づいて
生成されていることを特徴とする単語・連語記憶媒体。 - 【請求項17】 テキストデータの単語の一次元列から
互いに異なる単語を抽出し、抽出された前記単語の集合
を分割して単語クラスを生成する機能と、 前記テキストデータの単語の一次元列を構成する個々の
単語を、前記単語が属する前記単語クラスで置換するこ
とにより、前記テキストデータの単語クラスの一次元列
を生成する機能と、 前記テキストデータの単語クラスの一次元列から、隣接
する単語クラス間の粘着度が全て所定値以上の単語クラ
ス列を抽出する機能と、 前記単語クラス列にトークンを付与する機能と、 前記テキストデータの単語の一次元列のうち、前記単語
クラス列に属する単語列を前記トークンで置換すること
により、前記テキストデータの単語・トークンの一次元
列を生成する機能と、 前記テキストデータの単語・トークンの一次元列に含ま
れる単語とトークンとが混在する集合を分割して単語・
トークンクラスを生成する機能と、 前記単語・トークンクラスの中のトークンを、前記テキ
ストデータに存在する単語列に逆置換して連語を生成す
る機能とをコンピュータに実行させるプログラムを格納
したコンピュータ読み取り可能な記憶媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP16724397A JP3875357B2 (ja) | 1996-08-02 | 1997-06-24 | 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体 |
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP20498696 | 1996-08-02 | ||
| JP8-204986 | 1996-08-02 | ||
| JP16724397A JP3875357B2 (ja) | 1996-08-02 | 1997-06-24 | 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH1097286A true JPH1097286A (ja) | 1998-04-14 |
| JP3875357B2 JP3875357B2 (ja) | 2007-01-31 |
Family
ID=26491346
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP16724397A Expired - Fee Related JP3875357B2 (ja) | 1996-08-02 | 1997-06-24 | 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3875357B2 (ja) |
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7269789B2 (en) | 2003-04-10 | 2007-09-11 | Mitsubishi Denki Kabushiki Kaisha | Document information processing apparatus |
| EP1551007A4 (en) * | 2002-10-08 | 2008-05-21 | Matsushita Electric Industrial Co Ltd | DEVICE FOR LANGUAGE MODEL GENERATION / ACCUMULATION, LANGUAGE RECOGNITION DEVICE, LANGUAGE MODEL PRODUCTION METHOD AND LANGUAGE RECOGNITION METHOD |
| JP2013083897A (ja) * | 2011-10-12 | 2013-05-09 | Fujitsu Ltd | 認識装置、認識プログラム、認識方法、生成装置、生成プログラムおよび生成方法 |
| US9524295B2 (en) | 2006-10-26 | 2016-12-20 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
| US9753918B2 (en) | 2008-04-15 | 2017-09-05 | Facebook, Inc. | Lexicon development via shared translation database |
| CN111159409A (zh) * | 2019-12-31 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备、介质 |
| CN111768023A (zh) * | 2020-05-11 | 2020-10-13 | 国网冀北电力有限公司电力科学研究院 | 一种基于智慧城市电能表数据的概率峰值负荷估计方法 |
| US11222185B2 (en) | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6154562A (ja) * | 1984-08-24 | 1986-03-18 | Nec Corp | 日本語入力装置 |
| JPH03179498A (ja) * | 1989-12-08 | 1991-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声日本語変換方式 |
| JPH05189481A (ja) * | 1991-07-25 | 1993-07-30 | Internatl Business Mach Corp <Ibm> | 翻訳用コンピュータ操作方法、字句モデル生成方法、モデル生成方法、翻訳用コンピュータシステム、字句モデル生成コンピュータシステム及びモデル生成コンピュータシステム |
| JPH06274546A (ja) * | 1993-03-19 | 1994-09-30 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 情報量一致度計算方式 |
| JPH06301722A (ja) * | 1993-04-13 | 1994-10-28 | Matsushita Electric Ind Co Ltd | 形態素解析装置及びキーワード抽出装置 |
-
1997
- 1997-06-24 JP JP16724397A patent/JP3875357B2/ja not_active Expired - Fee Related
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6154562A (ja) * | 1984-08-24 | 1986-03-18 | Nec Corp | 日本語入力装置 |
| JPH03179498A (ja) * | 1989-12-08 | 1991-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声日本語変換方式 |
| JPH05189481A (ja) * | 1991-07-25 | 1993-07-30 | Internatl Business Mach Corp <Ibm> | 翻訳用コンピュータ操作方法、字句モデル生成方法、モデル生成方法、翻訳用コンピュータシステム、字句モデル生成コンピュータシステム及びモデル生成コンピュータシステム |
| JPH06274546A (ja) * | 1993-03-19 | 1994-09-30 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 情報量一致度計算方式 |
| JPH06301722A (ja) * | 1993-04-13 | 1994-10-28 | Matsushita Electric Ind Co Ltd | 形態素解析装置及びキーワード抽出装置 |
Non-Patent Citations (2)
| Title |
|---|
| 柏岡秀紀他: ""相互情報量を用いた単語の分類における出現頻度の低い単語の処理手法"", 情報処理学会第49回(平成6年後期)全国大会講演論文集(3), vol. 1994年9月,7G-5, JPNX006049922, pages 185 - 186, ISSN: 0000784930 * |
| 柏岡秀紀他: "相互情報量を用いた単語の分類における出現頻度の低い単語の処理方法", 情報処理学会第49回(平成6年後期)全国大会講演論文集(3), vol. 7G-5, JPN4005003875, 20 September 1994 (1994-09-20), pages 185 - 186, ISSN: 0000751010 * |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1551007A4 (en) * | 2002-10-08 | 2008-05-21 | Matsushita Electric Industrial Co Ltd | DEVICE FOR LANGUAGE MODEL GENERATION / ACCUMULATION, LANGUAGE RECOGNITION DEVICE, LANGUAGE MODEL PRODUCTION METHOD AND LANGUAGE RECOGNITION METHOD |
| US7269789B2 (en) | 2003-04-10 | 2007-09-11 | Mitsubishi Denki Kabushiki Kaisha | Document information processing apparatus |
| US11222185B2 (en) | 2006-10-26 | 2022-01-11 | Meta Platforms, Inc. | Lexicon development via shared translation database |
| US9524295B2 (en) | 2006-10-26 | 2016-12-20 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
| US9830318B2 (en) | 2006-10-26 | 2017-11-28 | Facebook, Inc. | Simultaneous translation of open domain lectures and speeches |
| US11972227B2 (en) | 2006-10-26 | 2024-04-30 | Meta Platforms, Inc. | Lexicon development via shared translation database |
| US9753918B2 (en) | 2008-04-15 | 2017-09-05 | Facebook, Inc. | Lexicon development via shared translation database |
| US9082404B2 (en) | 2011-10-12 | 2015-07-14 | Fujitsu Limited | Recognizing device, computer-readable recording medium, recognizing method, generating device, and generating method |
| JP2013083897A (ja) * | 2011-10-12 | 2013-05-09 | Fujitsu Ltd | 認識装置、認識プログラム、認識方法、生成装置、生成プログラムおよび生成方法 |
| CN111159409A (zh) * | 2019-12-31 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备、介质 |
| CN111159409B (zh) * | 2019-12-31 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备、介质 |
| CN111768023A (zh) * | 2020-05-11 | 2020-10-13 | 国网冀北电力有限公司电力科学研究院 | 一种基于智慧城市电能表数据的概率峰值负荷估计方法 |
| CN111768023B (zh) * | 2020-05-11 | 2024-04-09 | 国网冀北电力有限公司电力科学研究院 | 一种基于智慧城市电能表数据的概率峰值负荷估计方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP3875357B2 (ja) | 2007-01-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6178396B1 (en) | Word/phrase classification processing method and apparatus | |
| CN110364171B (zh) | 一种语音识别方法、语音识别系统及存储介质 | |
| CN112397054B (zh) | 一种电力调度语音识别方法 | |
| KR100924399B1 (ko) | 음성 인식 장치 및 음성 인식 방법 | |
| JP6171544B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
| US20110131038A1 (en) | Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method | |
| CN107562760A (zh) | 一种语音数据处理方法及装置 | |
| CN113051923B (zh) | 数据验证方法、装置、计算机设备和存储介质 | |
| CN112259083A (zh) | 音频处理方法及装置 | |
| KR20230066970A (ko) | 자연어 처리 방법, 문법 생성 방법 및 대화 시스템 | |
| CN117059076A (zh) | 方言语音识别方法、装置、设备及存储介质 | |
| US8423354B2 (en) | Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method | |
| JP3875357B2 (ja) | 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体 | |
| CN117292680A (zh) | 一种基于小样本合成的输电运检的语音识别的方法 | |
| CN113990288B (zh) | 一种语音客服自动生成部署语音合成模型的方法 | |
| JP3911178B2 (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
| Imperl et al. | Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones | |
| JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
| JP2000221991A (ja) | 適正単語列推定装置 | |
| JPH06266393A (ja) | 音声認識装置 | |
| CN114416917A (zh) | 一种基于词典的电力领域文本情感分析方法、系统和存储介质 | |
| JP4424023B2 (ja) | 素片接続型音声合成装置 | |
| JP3439700B2 (ja) | 音響モデル学習装置、音響モデル変換装置及び音声認識装置 | |
| CN119446119B (zh) | 方言识别方法、装置、设备及计算机程序产品 | |
| Zhang et al. | A study on tone statistics in Chinese names |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050630 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050705 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050823 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060704 |
|
| AA91 | Notification that invitation to amend document was cancelled |
Free format text: JAPANESE INTERMEDIATE CODE: A971091 Effective date: 20060725 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060905 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060928 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061024 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061026 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101102 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111102 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121102 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131102 Year of fee payment: 7 |
|
| LAPS | Cancellation because of no payment of annual fees |