JPH1097286A

JPH1097286A - 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体

Info

Publication number: JPH1097286A
Application number: JP9167243A
Authority: JP
Inventors: Akira Shioda; 明潮田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1996-08-02
Filing date: 1997-06-24
Publication date: 1998-04-14
Anticipated expiration: 2017-06-24
Also published as: JP3875357B2

Abstract

(57)【要約】【課題】単語と連語とをまとめて自動的に分類する。【解決手段】テキストデータにおいて出現する確率が
所定値以上の単語クラス列にトークンを付与し、テキス
トデータの単語・トークン列に含まれる単語とトークン
とが混在する集合を、テキストデータの単語・トークン
列の生成確率が最大になるように分割し、トークンをテ
キストデータに存在する連語に置換する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、単語・連語分類処
理方法、連語抽出方法、単語・連語分類処理装置、音声
認識装置、機械翻訳装置、連語抽出装置及び単語・連語
記憶媒体に関し、特に、テキストデータの中から連語を
自動的に抽出し、単語及び連語を自動的に分類する場合
に好適なものである。

【０００２】

【従来の技術】従来の単語分類処理装置には、例えば、
「Ｂｒｏｗｎ，Ｐ．，ＤｅｌｌａＰｉｅｔｒａ，
Ｖ．，ｄｅＳｏｕｚａ，Ｐ．，Ｌａｉ，Ｊ．，Ｍｅｒｃ
ｅｒ，Ｒ．（１９９２）“Ｃｌａｓｓ−Ｂａｓｅｄｎ
−ｇｒａｍＭｏｄｅｌｓｏｆＮａｔｕｒａｌＬａ
ｎｇｕａｇｅ”．ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎ
ｇｕｉｓｔｉｃｓ，Ｖｏｌ．１８，Ｎｏ４，ｐｐ．４６
７−４７９」に記載されているように、テキストデータ
の中で使用されている単独の単語を統計的に処理するこ
とにより、単独の単語を自動的に分類するものがあり、
この単独の単語の分類結果を用いて音声認識や機械翻訳
を行っていた。

【０００３】

【発明が解決しようとする課題】しかしながら、従来の
単語分類処理装置は、単語と連語とをまとめて自動的に
分類することができず、単語と連語あるいは連語と連語
の対応関係や類似度を用いて、音声認識や機械翻訳を行
うことがきないため、音声認識や機械翻訳を正確に実行
することができないという問題があった。

【０００４】そこで、本発明の第１の目的は、単語と連
語とをまとめて自動的に分類することが可能な単語・連
語分類処理方法及び単語・連語分類処理装置を提供する
ことである。

【０００５】また、本発明の第２の目的は、大量のテキ
ストデータから高速に連語を抽出することが可能な連語
抽出装置を提供することである。また、本発明の第３の
目的は、単語と連語あるいは連語と連語の対応関係や類
似度を用いることにより、正確な音声認識が可能な音声
認識装置を提供することである。

【０００６】また、本発明の第４の目的は、単語と連語
あるいは連語と連語の対応関係や類似度を用いることに
より、正確な機械翻訳が可能な機械翻訳装置を提供する
ことである。

【０００７】

【課題を解決するための手段】上述した第１の目的を達
成するために、本発明によれば、テキストデータに含ま
れる単語と連語とを一緒に分類して、単語と連語とが混
在するクラスを生成するようにしている。

【０００８】このことにより、単語と単語とをまとめて
分類するだけでなく、単語と連語あるいは連語と連語と
をまとめて一緒に分類することができ、単語と連語ある
いは連語と連語との対応関係や類似度を容易に判別する
ことができる。

【０００９】また、本発明の一態様によれば、単語を分
類した単語クラスをテキストデータの単語の一次元列に
マッピングして単語クラスの一次元列を生成し、テキス
トデータの単語クラスの一次元列において、隣接する単
語クラス間の粘着度が全て所定値以上の単語クラス列を
抽出してその単語クラス列にトークンを付与し、単語と
トークンとを一緒に分類してから、トークンに対応する
単語クラス列をその単語クラス列に属する連語で置換す
るようにしている。

【００１０】このことにより、単語クラス列にトークン
を付与してその単語クラス列を１つの単語とみなし、テ
キストデータに含まれる単語とトークンを付与された単
語クラス列とを同等に取り扱って単語と連語との区別な
く分類処理を行うことができる。また、単語を分類した
単語クラスをテキストデータの単語の一次元列にマッピ
ングして単語クラスの一次元列を生成し、隣接する単語
クラス間の粘着度に基づいて連語を抽出することによ
り、テキストデータからの連語の抽出を高速に行うこと
ができる。

【００１１】また、上述した第２の目的を達成するため
に、本発明によれば、単語を分類した単語クラスをテキ
ストデータの単語の一次元列にマッピングして単語クラ
スの一次元列を生成し、テキストデータの単語クラスの
一次元列において、隣接する単語クラス間の粘着度が全
て所定値以上の単語クラス列を抽出し、単語クラス列を
構成する個々の単語クラスから、テキストデータに隣接
して存在する個々の単語を別々に取り出して連語を抽出
するようにしている。

【００１２】このことにより、単語クラス列に基づいて
連語を抽出することができ、テキストデータに存在する
異なる単語の数よりも、それらの単語を分類した単語ク
ラスの数のほうが少ないので、テキストデータの単語ク
ラスの一次元列において、隣接する単語クラス間の粘着
度が所定値以上の単語クラス列を抽出するほうが、テキ
ストデータの単語の一次元列において、隣接する単語間
の粘着度が所定値以上の単語列を抽出する場合に比べ
て、演算量及びメモリ容量を少なくすることができ、連
語の抽出処理を高速に行うことができるとともに、メモ
リ資源を節約できる。なお、単語クラス列には、テキス
トデータの単語の一次元列に存在しない単語列が含まれ
ている場合があるので、単語クラス列を構成する個々の
単語クラスから、テキストデータに隣接して存在する個
々の単語を別々に取り出して連語としている。

【００１３】また、上述した第３の目的を達成するため
に、本発明によれば、所定のテキストデータに含まれる
単語と連語とを、単語と連語とが混在するクラスに分類
して格納している単語・連語辞書を参照することによ
り、発音音声を音声認識するようにしている。

【００１４】このことにより、単語と連語あるいは連語
と連語の対応関係や類似度を用いながら音声認識を行う
ことができ、正確な処理が可能になる。また、上述した
第４の目的を達成するために、本発明によれば、所定の
テキストデータに含まれる単語と連語とを、単語と連語
とが混在するクラスに分類して格納している単語・連語
辞書に基づいて、用例文集に格納されている用例原文と
入力された原文とを対応させるようにしている。

【００１５】このことにより、用例文集に格納されてい
る用例原文の単語が連語に置き換わった原文が入力され
た場合においても、入力された原文に用例原文を適用し
て機械翻訳を行うことができ、単語と連語あるいは連語
と連語の対応関係や類似度を用いた正確な機械翻訳が可
能になる。

【００１６】

【発明の実施の形態】以下、本発明の一実施例に係わる
単語・連語分類処理装置について図面を参照しながら説
明する。この実施例は、所定のテキストデータに含まれ
る単語と連語とを、単語と連語とが混在するクラスに分
類するものである。

【００１７】図１は、本発明の一実施例に係わる単語・
連語分類処理装置の機能的な構成を示すブロック図であ
る。図１において、単語分類手段１は、テキストデータ
の単語の一次元列から互いに異なる単語を抽出し、抽出
された単語の集合を分割して単語クラスを生成する。

【００１８】図２は、単語分類手段１の処理を説明する
もので、テキストデータに含まれるＴ個の単語よりなる
単語の一次元列（ｗ₁ｗ₂ｗ₃ｗ₄・・・ｗ_T）から、
テキストデータでの出現頻度順に並べたＶ個のボキャブ
ラリーとしての単語｛ｖ₁、ｖ₂、ｖ₃、ｖ₄、・・
・、ｖ_V｝を生成し、このテキストデータのボキャブラ
リーとしての単語｛ｖ₁、ｖ₂、ｖ₃、ｖ₄、・・・、
ｖ_V｝のそれぞれに初期化クラスを割り当てる。ここ
で、単語の個数Ｔ個は、例えば、５０００万個であり、
ボキャブラリーの個数Ｖ個は、例えば、７０００個であ
る。

【００１９】図２の例では、テキストデータでの出現頻
度が高い、例えば、“ｔｈｅ”、“ａ”、“ｉｎ”、
“ｏｆ”が、それぞれボキャブラリーとしての単語
ｖ₁、ｖ₂、ｖ₃、ｖ₄に対応している。初期化クラス
を割り当てられたＶ個のボキャブラリーとしての単語
｛ｖ₁、ｖ₂、ｖ₃、ｖ₄、・・・、ｖ_V｝は、クラス
タリングによりＣ個の単語クラス｛Ｃ₁、Ｃ₂、Ｃ₃、
Ｃ₄、・・・、Ｃ_C｝に分割される。ここで、単語クラ
スの個数Ｃ個は、例えば、５００個である。

【００２０】また、図２では、例えば、“ｓｐｅａ
ｋ”、“ｓａｙ”、“ｔｅｌｌ”、“ｔａｌｋ”・・・
が単語クラスＣ₁に分類され、“ｈｅ”、“ｓｈｅ”、
“ｉｔ”・・・が単語クラスＣ₅に分類され、“ｃａ
ｒ”、“ｔｒａｃｋ”、“ｗａｇｏｎ”・・・が単語ク
ラスＣ₃₂に分類され、“Ｔｏｙｏｔａ”、“Ｎｉｓｓａ
ｎ”、“ＧＭ”・・・が単語クラスＣ₃₀₀に分類されて
いる例を示している。

【００２１】このＶ個のボキャブラリーとしての単語
｛ｖ₁、ｖ₂、ｖ₃、ｖ₄、・・・、ｖ_V｝よりなる単
語の分類は、例えば、テキストデータに存在する２つの
単語がおのおの属する２つの単語クラスをマージした場
合、元のテキストデータの生成確率の減少が最も少なく
なるものを同一の単語クラスに統合することにより行
う。ここで、元のテキストデータのクラスバイモデルに
よる生成確率は、平均相互情報量ＡＭＩを用いて表現す
ることができ、この平均相互情報量ＡＭＩは以下の式に
より表すことができる。

【００２２】

【数１】

【００２３】ここで、Ｐｒ（Ｃ_i）は、テキストデータ
の単語の一次元列（ｗ₁ｗ₂ｗ₃ｗ₄・・・ｗ_T）をそ
の単語が属する単語クラスで置き換えた場合、そのテキ
ストデータの単語クラスの一次元列でのクラスＣ_iの出
現確率、Ｐｒ（Ｃ_j）は、テキストデータの単語の一次
元列（ｗ₁ｗ₂ｗ₃ｗ₄・・・ｗ_T）をその単語が属す
る単語クラスで置き換えた場合、そのテキストデータの
単語クラスの一次元列でのクラスＣ_jの出現確率、Ｐｒ
（Ｃ_i、Ｃ_j）は、テキストデータの単語の一次元列
（ｗ₁ｗ₂ｗ₃ｗ₄・・・ｗ_T）を、その単語が属する
単語クラスで置き換えた場合、そのテキストデータの単
語クラスの一次元列での単語クラスＣ_iの次に隣接して
単語クラスＣ _jが出現する確率である。

【００２４】図３は、図１の単語分類手段１の機能的な
構成の一例を示すブロック図である。図３において、初
期化クラス設定部１０は、テキストデータの単語の一次
元列｛ｗ₁ｗ₂ｗ₃ｗ₄・・・ｗ_T｝から互いに異なる
単語を抽出し、所定の出現頻度を有する単語｛ｖ₁、ｖ
₂、ｖ₃、ｖ₄、・・・、ｖ_V｝のそれぞれに固有の単
語クラス｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ_V｝を
割り当てる。

【００２５】仮マージ部１１は、単語クラスの集合｛Ｃ
₁、Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ _M｝から２つの単語
クラス｛Ｃ_i、Ｃ_j｝を取り出して仮マージする。平均
相互情報量算出部１２は、テキストデータの仮マージさ
れた単語クラス｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ
_M-1｝についての平均相互情報量ＡＭＩを（１）式によ
り算出する。この場合、Ｍ個の単語クラスの集合
｛Ｃ₁、Ｃ₂、Ｃ ₃、Ｃ₄、・・・、Ｃ_M｝から２つの
単語クラス｛Ｃ_i、Ｃ_j｝を取り出だす取り出しかた
は、Ｍ（Ｍ−１）／２個だけ存在するので、Ｍ（Ｍ−
１）／２回の平均相互情報量ＡＭＩの計算を行う必要が
ある。

【００２６】本マージ部１３は、仮マージにより計算さ
れたＭ（Ｍ−１）／２個の平均相互情報量ＡＭＩの基づ
いて、平均相互情報量ＡＭＩを最大とする２つの単語ク
ラス｛Ｃ_i、Ｃ_j｝を単語クラスの集合｛Ｃ₁、Ｃ₂、
Ｃ₃、Ｃ₄、・・・、Ｃ_M｝から取り出して本マージす
る。このことにより、本マージされたいずれかの単語ク
ラス｛Ｃ_i、Ｃ_j｝に属する単語は、同一の単語クラス
に分類される。

【００２７】図１の単語クラス列生成手段２は、テキス
トデータの単語列（ｗ₁ｗ₂ｗ₃ｗ ₄・・・ｗ_T）を構
成する個々の単語を、単語が属する単語クラス｛Ｃ₁、
Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ_V｝で置換することによ
り、テキストデータの単語クラス列を生成する。

【００２８】図４は、テキストデータの単語クラスの一
次元列の一例を示す図である。図４において、単語分類
手段１によりＣ個の単語クラス｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ
₄、・・・、Ｃ_C｝が生成されているものとし、例え
ば、単語クラスＣ₁には、ボキャブラリーｖ₁、ｖ₃₇、
・・・が属しており、単語クラスＣ₂には、ボキャブラ
リーｖ₃、ｖ₁₅、・・・が属しており、単語クラスＣ₃
には、ボキャブラリーｖ₂、ｖ₄、・・・が属してお
り、単語クラスＣ₄には、ボキャブラリーｖ ₇、ｖ₉、
・・・が属しており、単語クラスＣ₅には、ボキャブラ
リーｖ₆、ｖ ₈、ｖ₂₆、ｖ_V、・・・が属しており、単
語クラスＣ₆には、ボキャブラリーｖ ₆、ｖ₂₃、・・・
が属しており、単語クラスＣ₇には、ボキャブラリーｖ
₅、ｖ ₁₀、・・・が属しているものとする。

【００２９】また、テキストデータの単語の一次元列
（ｗ₁ｗ₂ｗ₃ｗ₄・・・ｗ_T）において、例えば、単
語ｗ₁が示すボキャブラリーとしての単語がｖ₁₅、単語
ｗ₂が示すボキャブラリーとしての単語がｖ₂、単語ｗ
₃が示すボキャブラリーとしての単語がｖ₂₃、単語ｗ₄
が示すボキャブラリーとしての単語がｖ₄、単語ｗ₅が
示すボキャブラリーとしての単語がｖ₅、単語ｗ₆が示
すボキャブラリーとしての単語がｖ₁₅、単語ｗ₇が示す
ボキャブラリーとしての単語がｖ₅、単語ｗ₈が示すボ
キャブラリーとしての単語がｖ₂₆、単語ｗ₉が示すボキ
ャブラリーとしての単語がｖ₃₇、単語ｗ₁₀が示すボキャ
ブラリーとしての単語がｖ₂、・・・、単語ｗ_Tが示す
ボキャブラリーとしての単語がｖ₈であるとする。

【００３０】この場合、ボキャブラリーｖ₁₅は単語クラ
スＣ₂に属しているので、単語ｗ₁は単語クラスＣ₂に
マッピングされ、ボキャブラリーｖ₂は単語クラスＣ₃
に属しているので、単語ｗ₂は単語クラスＣ₃にマッピ
ングされ、ボキャブラリーｖ ₂₃は単語クラスＣ₆に属し
ているので、単語ｗ₃は単語クラスＣ₆にマッピングさ
れ、ボキャブラリーｖ₄は単語クラスＣ₃に属している
ので、単語ｗ₄は単語クラスＣ₃にマッピングされ、ボ
キャブラリーｖ₅は単語クラスＣ₇に属しているので、
単語ｗ₅は単語クラスＣ₇にマッピングされ、ボキャブ
ラリーｖ₁₅は単語クラスＣ₂に属しているので、単語ｗ
₆は単語クラスＣ₂にマッピングされ、ボキャブラリー
ｖ₅は単語クラスＣ₇に属しているので、単語ｗ₇は単
語クラスＣ₇にマッピングされ、ボキャブラリーｖ₂₆は
単語クラスＣ₅に属しているので、単語ｗ₈は単語クラ
スＣ₅にマッピングされ、ボキャブラリーｖ₃₇は単語ク
ラスＣ₁に属しているので、単語ｗ₉は単語クラスＣ₁
にマッピングされ、ボキャブラリーｖ₂は単語クラスＣ
₃に属しているので、単語ｗ₁₀は単語クラスＣ₃にマッ
ピングされ、・・・、ボキャブラリーｖ₈は単語クラス
Ｃ₅に属しているので、単語ｗ_Tは単語クラスＣ₅にマ
ッピングされる。

【００３１】すなわち、テキストデータの単語の一次元
列（ｗ₁ｗ₂ｗ₃ｗ₄・・・ｗ_T）が、Ｃ個の単語クラ
ス｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ_C｝によりマ
ッピングされた結果として、テキストデータの単語クラ
スの一次元列（Ｃ₂Ｃ₃Ｃ₆Ｃ₃Ｃ₇Ｃ₂Ｃ₇Ｃ₅Ｃ₁
Ｃ₃・・・Ｃ₅）が１対１対応で生成される。

【００３２】図１の単語クラス列抽出手段３は、テキス
トデータの単語クラスの一次元列においての単語クラス
間の粘着度が全て所定値以上の単語クラス列を、テキス
トデータの単語クラスの一次元列から抽出する。ここ
で、単語クラス間の粘着度は、単語クラス列を構成する
単語クラス間のつながりの強さを示す指標であり、この
粘着度を表現するものとして、例えば、相互情報量Ｍ
Ｉ、相関係数、コサインメジャー、ｌｉｋｌｉｈｏｏｄ
ｒａｔｉｏなどがある。

【００３３】以下の説明では、単語クラス間の粘着度と
して、相互情報量ＭＩを用いることにより、テキストデ
ータの単語クラスの一次元列から単語クラス列を抽出す
る場合を例にとる。

【００３４】図５は、単語クラス列抽出手段３により抽
出された単語クラス列の一例を示す図である。図５にお
いて、テキストデータの単語の一次元列（ｗ₁ｗ₂ｗ₃
ｗ₄ｗ₅ｗ₆ｗ₇・・・ｗ_T）に対してマッピングされ
た結果として、テキストデータの単語クラスの一次元列
（Ｃ₂Ｃ₃Ｃ₆Ｃ₃Ｃ₇Ｃ₂Ｃ₇・・・Ｃ₅）が１対１
対応で生成されているものとする。このテキストデータ
の単語クラスの一次元列（Ｃ₂Ｃ₃Ｃ₆Ｃ₃Ｃ₇Ｃ₂Ｃ
₇・・・Ｃ₅）から、隣接する２つの単語クラス
（Ｃ_i、Ｃ_j）を順次に取り出し、隣接する２つの単語
クラス（Ｃ_i、Ｃ_j）についての相互情報量ＭＩ
（Ｃ_i、Ｃ_j）を、以下の（２）式により計算する。

【００３５】ＭＩ（Ｃ_i、Ｃ_j）＝ｌｏｇ｛Ｐｒ（Ｃ_i、Ｃ_j）／（Ｐｒ（Ｃ_i）Ｐｒ（Ｃ_j））｝・・・（２）そして、隣接する２つの単語クラス（Ｃ_i、Ｃ_j）につ
いての相互情報量ＭＩ（Ｃ_i、Ｃ_j）が所定のしきい値
ＴＨ以上の場合、これら隣接する２つの単語クラス（Ｃ
_i、Ｃ_j）をクラスチェーンで結んで互いに関連づけ
る。

【００３６】例えば、図５において、隣接する２つの単
語クラス（Ｃ₂、Ｃ₃）についての相互情報量ＭＩ（Ｃ
₂、Ｃ₃）、隣接する２つの単語クラス（Ｃ₃、Ｃ₆）
についての相互情報量ＭＩ（Ｃ₃、Ｃ₆）、隣接する２
つの単語クラス（Ｃ₆、Ｃ₃）についての相互情報量Ｍ
Ｉ（Ｃ₆、Ｃ₃）、隣接する２つの単語クラス（Ｃ₃、
Ｃ₇）についての相互情報量ＭＩ（Ｃ₃、Ｃ₇）、隣接
する２つの単語クラス（Ｃ₇、Ｃ₂）についての相互情
報量ＭＩ（Ｃ₇、Ｃ₂）、隣接する２つの単語クラス
（Ｃ₂、Ｃ₇）についての相互情報量ＭＩ（Ｃ₂、
Ｃ₇）、・・・を（２）式により順次に計算する。

【００３７】そして、相互情報量ＭＩ（Ｃ₂、Ｃ₃）、
相互情報量ＭＩ（Ｃ₃、Ｃ₇）、相互情報量ＭＩ
（Ｃ₇、Ｃ₂）、・・・がしきい値ＴＨ以上で、相互情
報量ＭＩ（Ｃ₃、Ｃ₆）、相互情報量ＭＩ（Ｃ₆、
Ｃ₃）、相互情報量ＭＩ（Ｃ₂、Ｃ₇）、・・・がしき
い値ＴＨより小さい場合、隣接する２つの単語クラス
（Ｃ₂、Ｃ ₃）、（Ｃ₃、Ｃ₇）、（Ｃ₇、Ｃ₂）、・
・・をそれぞれクラスチェーンで結ぶことにより、単語
クラス列Ｃ₂−Ｃ₃、Ｃ₃−Ｃ₇−Ｃ₂、・・・を抽出
する。

【００３８】図６は、図１の単語クラス列抽出手段３の
機能的な構成の一例を示すブロック図である。図６にお
いて、単語クラス取出部３０は、テキストデータの単語
クラスの一次元列から、隣接して存在する２つの単語ク
ラス（Ｃ_i、Ｃ_j）を順次に取り出す。

【００３９】相互情報量算出部３１は、単語クラス取出
部３０により取り出した２つの単語クラス（Ｃ_i、
Ｃ_j）の相互情報量ＭＩ（Ｃ_i、Ｃ_j）を（２）式によ
り算出する。

【００４０】クラスチェーン結合部３２は、相互情報量
ＭＩ（Ｃ_i、Ｃ_j）が所定のしきい値以上の２つの単語
クラス（Ｃ_i、Ｃ_j）をクラスチェーンで結ぶ。図１の
トークン付与手段４は、単語クラス列抽出手段３により
クラスチェーンで結ばれた単語クラス列にトークンを付
与する。

【００４１】図７は、トークン付与手段４により付与さ
れたトークンの一例を示す図である。図７において、ク
ラスチェーンで結ばれた単語クラス列は、例えば、Ｃ₁
−Ｃ ₃、Ｃ₁−Ｃ₇、・・・、Ｃ₂−Ｃ₃、Ｃ₂−
Ｃ₁₁、・・・、Ｃ₃₀₀−Ｃ₃₂、・・・、Ｃ₁−Ｃ₃−Ｃ
₈₀、Ｃ₁−Ｃ₄−Ｃ₅、Ｃ₃−Ｃ₇−Ｃ₂、・・・、Ｃ
₁−Ｃ₉−Ｃ₁₁−Ｃ₃₂、・・・とする。この場合、単語
クラス列Ｃ₁−Ｃ₃に対してトークンｔ₁を付与し、単
語クラス列Ｃ₁−Ｃ₇に対してトークンｔ₂を付与し、
・・・、単語クラス列Ｃ₂−Ｃ₃に対してトークンｔ₃
を付与し、単語クラス列Ｃ₂−Ｃ₁₁に対してトークンｔ
₄を付与し、・・・、単語クラス列Ｃ₃₀₀−Ｃ₃₂に対し
てトークンｔ₅を付与し、、・・・、単語クラス列Ｃ₁
−Ｃ₃−Ｃ₈₀に対してトークンｔ₆を付与し、単語クラ
ス列Ｃ₁−Ｃ₄−Ｃ₅に対してトークンｔ₇を付与し、
単語クラス列Ｃ₃−Ｃ₇−Ｃ₂に対してトークンｔ₈を
付与し、・・・、単語クラス列Ｃ₁−Ｃ₉−Ｃ₁₁−Ｃ₃₂
に対してトークンｔ₉を付与する。

【００４２】図１の単語・トークン列生成手段５は、テ
キストデータの単語の一次元列（ｗ ₁ｗ₂ｗ₃ｗ₄ｗ₅
ｗ₆ｗ₇・・・ｗ_T）のうち、単語クラス列抽出手段４
により抽出された単語クラス列に属する単語列をトーク
ンで置換することにより、テキストデータの単語・トー
クンの一次元列を生成する。

【００４３】図８は、テキストデータの単語・トークン
の一次元列の一例を示す図である。図８において、テキ
ストデータの単語の一次元列（ｗ₁ｗ₂ｗ₃ｗ₄ｗ₅ｗ
₆ｗ₇・・・ｗ_T）に対してマッピングされた結果とし
て、テキストデータの単語クラスの一次元列（Ｃ₂Ｃ₃
Ｃ₆Ｃ₃Ｃ₇Ｃ₂Ｃ₇・・・Ｃ₅）が１対１対応で生成
されているものとし、クラスチェーンで結ばれた単語ク
ラス列Ｃ₂−Ｃ₃、Ｃ₃−Ｃ₇−Ｃ₂、・・・に対し
て、図７に示すように、トークンｔ₃、ｔ₈、・・・が
付与されているものとする。

【００４４】この場合、クラスチェーンで結ばれた単語
クラス列Ｃ₂−Ｃ₃に属するテキストデータの単語列
（ｗ₁ｗ₂）をトークンｔ₃で置き換え、クラスチェー
ンで結ばれた単語クラス列Ｃ₃−Ｃ₇−Ｃ₂に属するテ
キストデータの単語列（ｗ₄ｗ ₅ｗ₆）をトークンｔ₈
で置き換えることにより、テキストデータの単語・トー
クンの一次元列（ｔ₃ｗ₃ｔ₈ｗ₇・・・ｗ_T）を生成
する。

【００４５】図９は、テキストデータの単語・トークン
の一次元列の一例を英文を例にとって示す図である。図
９（ｂ）のテキストデータの単語の一次元列（ｗ₁ｗ₂
ｗ₃ｗ₄ｗ₅ｗ₆ｗ ₇ｗ₈ｗ₉ｗ₁₀ｗ₁₁ｗ₁₂ｗ₁₃ｗ₁₄ｗ
₁₅）として、図９（ａ）の“Ｈｅｗｅｎｔｔｏｔｈ
ｅａｐａｒｔｍｅｎｔｂｙｂｕｓａｎｄｓｈ
ｅｗｅｎｔｔｏＮｅｗＹｏｒｋｂｙｐｌａ
ｎｅ”が対応しているものとし、この単語の一次元列
（ｗ₁ｗ₂ｗ₃ｗ₄ｗ₅ｗ₆ｗ₇ｗ₈ｗ₉ｗ₁₀ｗ₁₁ｗ₁₂
ｗ₁₃ｗ ₁₄ｗ₁₅）に１対１で対応する単語クラスの一次元
列が図９（ｃ）の（Ｃ₅Ｃ₉₀Ｃ ₃Ｃ₂₁Ｃ₁₈Ｃ₁₀₁Ｃ₃₂Ｃ
₂Ｃ₅Ｃ₉₀Ｃ₃Ｃ₆₃Ｃ₂₈Ｃ₁₀₁Ｃ₃₂）で与えられるもの
とする。

【００４６】この単語クラスの一次元列（Ｃ₅Ｃ₉₀Ｃ₃
Ｃ₂₁Ｃ₁₈Ｃ₁₀₁Ｃ₃₂Ｃ₂Ｃ₅Ｃ₉₀Ｃ ₃Ｃ₆₃Ｃ₂₈Ｃ₁₀₁Ｃ
₃₂）において、隣接する２つの単語クラス（Ｃ_i、
Ｃ_j）の相互情報量ＭＩ（Ｃ_i、Ｃ_j）を計算し、相互
情報量ＭＩ（Ｃ₆₃、Ｃ₂₈）が所定のしきい値ＴＨ以上、
相互情報量ＭＩ（Ｃ₅、Ｃ₉₀）、ＭＩ（Ｃ₉₀、Ｃ₃）、
ＭＩ（Ｃ₃、Ｃ₂₁）、ＭＩ（Ｃ₂₁、Ｃ₁₈）、ＭＩ
（Ｃ₁₈、Ｃ₁₀₁）、ＭＩ（Ｃ₁₀₁、Ｃ₃₂）、ＭＩ
（Ｃ₃₂、Ｃ₂）、ＭＩ（Ｃ₂、Ｃ₅）、ＭＩ（Ｃ₅、Ｃ
₉₀）、ＭＩ（Ｃ₉₀、Ｃ₃）、ＭＩ（Ｃ₃、Ｃ₆₃）、ＭＩ
（Ｃ₂₈、Ｃ₁₀₁）及びＭＩ（Ｃ₁₀₁ 、Ｃ₃₂）が所定のしき
い値ＴＨより小さい場合、隣接する２つの単語クラス
（Ｃ₆₃、Ｃ₂₈）が、図９（ｄ）に示すように、クラスチ
ェーンで結ばれる。

【００４７】このクラスチェーンで結ばれた２つの単語
クラス（Ｃ₆₃、Ｃ₂₈）はトークンｔ ₁に置き換えられ、
図９（ｅ）に示すように、単語・トークンの一次元列
（ｗ₁ｗ₂ｗ₃ｗ₄ｗ₅ｗ₆ｗ₇ｗ₈ｗ₉ｗ₁₀ｗ₁₁ｔ₁
ｗ₁₄ｗ₁₅）が生成される。

【００４８】図１の単語・トークン分類手段６は、テキ
ストデータの単語・トークンの一次元列のＮ個の単語の
集合｛ｗ₁、ｗ₂、ｗ₃、ｗ₄、・・・、ｗ_N｝又はＬ
個のトークンの集合｛ｔ₁、ｔ₂、ｔ₃、ｔ₄、・・
・、ｔ_L｝を分割することにより、単語とトークンとが
混在して存在するＤ個の単語・トークンクラス｛Ｔ₁、
Ｔ₂、Ｔ₃、Ｔ₄、・・・、Ｔ_D｝を生成する。

【００４９】この単語・トークン分類手段６では、トー
クンを付与された単語クラス列が１つの単語のようにみ
なされ、テキストデータに含まれる単語｛ｗ₁、ｗ₂、
ｗ₃、ｗ₄、・・・、ｗ_N｝とトークン｛ｔ₁、ｔ₂、
ｔ₃、ｔ₄、・・・、ｔ_L｝とを同等に取り扱うことが
できるので、単語｛ｗ₁、ｗ₂、ｗ₃、ｗ₄、・・・、
ｗ_N｝とトークン｛ｔ₁、ｔ₂、ｔ₃、ｔ₄、・・・、
ｔ_L｝との区別なく分類処理を行うことができる図１０
は、図１の単語・トークン分類手段６の機能的な構成を
示すブロック図である。

【００５０】図１０において、初期化クラス設定部４０
は、テキストデータの単語・トークン列から互いに異な
る単語と互いに異なるトークンとを抽出し、所定の出現
頻度を有するＮ個の単語｛ｗ₁、ｗ₂、ｗ₃、ｗ₄、・
・・、ｗ_N｝とＬ個のトークン｛ｔ₁、ｔ₂、ｔ₃、ｔ
₄、・・・、ｔ_L｝とのそれぞれに固有の単語・トーク
ンクラス｛Ｔ₁、Ｔ₂、Ｔ₃、Ｔ₄、・・・、Ｔ_Y｝を
割り当てる。

【００５１】仮マージ部４１は、単語・トークンクラス
の集合｛Ｔ₁、Ｔ₂、Ｔ₃、Ｔ₄、・・・、Ｔ_M｝から
２つの単語・トークンクラス｛Ｔ_i、Ｔ_j｝を取り出し
て仮マージする。

【００５２】平均相互情報量算出部４２は、テキストデ
ータの仮マージされた単語・トークンクラス｛Ｔ₁、Ｔ
₂、Ｔ₃、Ｔ₄、・・・、Ｔ_M-1｝についての平均相互
情報量ＡＭＩを（１）式により算出する。この場合、Ｍ
個の単語クラス・トークンクラスの集合｛Ｔ₁、Ｔ₂、
Ｔ₃、Ｔ₄、・・・、Ｔ_M｝から、２つの単語・トーク
ンクラス｛Ｔ_i、Ｔ_j｝を取り出だす取り出しかたは、
Ｍ（Ｍ−１）／２個だけ存在するので、Ｍ（Ｍ−１）／
２回の平均相互情報量ＡＭＩの計算を行う必要がある。

【００５３】本マージ部４３は、仮マージにより計算さ
れたＭ（Ｍ−１）／２個の平均相互情報量ＡＭＩの基づ
いて、平均相互情報量ＡＭＩを最大とする２つの単語・
トークンクラス｛Ｔ_i、Ｔ_j｝を単語クラス・トークン
クラスの集合｛Ｔ₁、Ｔ₂、Ｔ₃、Ｔ₄、・・・、
Ｔ_M｝から取り出して本マージする。このことにより、
本マージされたいずれかの単語・トークンクラス
｛Ｔ_i、Ｔ_j｝に属する単語及びトークンは、同一の単
語クラス・トークンクラスに分類される。

【００５４】図１の連語置換手段７は、単語・トークン
クラスの中のトークンを、単語・トークン列生成手段５
により置換された単語列に逆置換して連語を生成する。
図１１は、クラスチェーンと連語との関係を説明する図
である。

【００５５】図１１において、例えば、単語クラスＣ
₃₀₀と単語クラスＣ₃₂とがクラスチェーンで結ばれ、こ
のクラスチェーンで結ばれた単語クラス列Ｃ₃₀₀−Ｃ₃₂
にトークンｔ₅が付与されているとする。また、単語
“Ｔｏｙｏｔａ”、“Ｎｉｓｓａｎ”、“ＧＭ”・・・
などのＡ個の単語が単語クラスＣ₃₀₀に属し、単語“ｃ
ａｒ”、“ｔｒａｃｋ”、“ｗａｇｏｎ”・・・などの
Ｂ個の単語が単語クラスＣ ₃₂に属しているものとする。

【００５６】この場合、連語の候補として、図１１
（ｂ）に示すように、“Ｔｏｙｏｔａｃａｒ”、“Ｔｏ
ｙｏｔａｔｒａｃｋ”、“Ｔｏｙｏｔａｗａｇｏ
ｎ”、“Ｎｉｓｓａｎｃａｒ”、“Ｎｉｓｓａｎｔ
ｒａｃｋ”、“Ｎｉｓｓａｎｗａｇｏｎ”、“ＧＭｃ
ａｒ”、“ＧＭｔｒａｃｋ”、“ＧＭｗａｇｏ
ｎ”、・・・など、単語クラスＣ₃₀₀に属するＡ個の単
語と単語クラスＣ₃₂に属するＢ個の単語との順列の数Ａ
×Ｂだけ連語の候補が生成される。この連語の候補の中
にはテキストデータに存在しない連語も含まれているの
で、テキストデータをスキャンすることにより、これら
の連語の候補からテキストデータに存在する連語のみを
抽出する。例えば、テキストデータには、“Ｎｉｓｓａ
ｎｔｒａｃｋ”及び“Ｔｏｙｏｔａｗａｇｏｎ”は
存在するが、“Ｔｏｙｏｔａｃａｒ”、“Ｔｏｙｏｔ
ａｔｒａｃｋ”、 “Ｎｉｓｓａｎｃａｒ”、“Ｎ
ｉｓｓａｎｗａｇｏｎ”、“ＧＭｃａｒ”、“ＧＭ
ｔｒａｃｋ”及び“ＧＭｗａｇｏｎ”は存在しない
場合、図１１（ｃ）に示すように、“Ｎｉｓｓａｎｔ
ｒａｃｋ”及び“Ｔｏｙｏｔａｗａｇｏｎ”のみが連
語としてテキストデータから抽出される。

【００５７】図１２は、Ｃ個の単語クラス｛Ｃ₁、
Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ_C｝、Ｄ個の単語・トー
クンクラス｛Ｔ₁、Ｔ₂、Ｔ₃、Ｔ₄、・・・、Ｔ_D｝
及びＤ個の単語・連語クラス｛Ｒ₁、Ｒ₂、Ｒ₃、
Ｒ₄、・・・、Ｒ_D｝の一例を示す図である。

【００５８】図１２（ａ）において、Ｃ個の単語クラス
｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ_C｝が、図１の
単語分類手段１により生成され、例えば、“ｈｅ”、
“ｓｈｅ”、“ｉｔ”・・・などの単語が単語クラスＣ
₅に属し、“Ｙｏｒｋ”、“Ｌｏｎｄｏｎ”・・・など
の単語が単語クラスＣ₂₈に属し、“ｃａｒ”、“ｔｒａ
ｃｋ”、“ｗａｇｏｎ”・・・などの単語が単語クラス
Ｃ₃₂に属し、“ｎｅｗ”、“ｏｌｄ”・・・などの単語
が単語クラスＣ₆₃に属し、“Ｔｏｙｏｔａ”、“Ｎｉｓ
ｓａｎ”、“ＧＭ”・・・などの単語が単語クラスＣ
₃₀₀に属しているものとする。また、テキストデータに
は、“ＮｅｗＹｏｒｋ”、“Ｎｉｓｓａｎｔｒａｃ
ｋ”及び“Ｔｏｙｏｔａｗａｇｏｎ”の連語が多数存
在しているものとする。

【００５９】このＣ個の単語クラス｛Ｃ₁、Ｃ₂、
Ｃ₃、Ｃ₄、・・・、Ｃ_C｝をテキストデータの単語の
一次元列（ｗ₁ｗ₂ｗ₃ｗ₄・・・ｗ_T）に１対１対応
でマッピングした単語クラスの一次元列において、図１
の単語クラス列抽出手段３は、“ｎｅｗ”が属する単語
クラスＣ₆₃と“Ｙｏｒｋ”が属する単語クラスＣ₂₈との
粘着度が大きいと判断し、単語クラスＣ₆₃と単語クラス
Ｃ₂₈とをクラスチェーンで結ぶ。また、単語クラス列抽
出手段３は、“Ｔｏｙｏｔａ”及び“Ｎｉｓｓａｎ”が
属する単語クラスＣ₃₀₀と“ｔｒａｃｋ”及び“ｗａｇ
ｏｎ”が属する単語クラスＣ₃₂との粘着度が大きいと判
断し、単語クラスＣ₃₀₀と単語クラスＣ₃₂とをクラスチ
ェーンで結ぶ。

【００６０】トークン付与手段４は、単語クラス列Ｃ₆₃
−Ｃ₂₈にトークンｔ₁を付与し、単語クラス列Ｃ₃₀₀−
Ｃ₃₂にトークンｔ₅を付与する。単語・トークン列生成
手段５は、テキストデータの単語の一次元列（ｗ₁ｗ₂
ｗ₃ｗ₄・・・ｗ_T）に存在する“ＮｅｗＹｏｒｋ”
をトークンｔ₁で置き換え、テキストデータの単語の一
次元列（ｗ₁ｗ₂ｗ₃ｗ₄・・・ｗ_T）に存在する“Ｎ
ｉｓｓａｎｔｒａｃｋ”及び“Ｔｏｙｏｔａｗａｇ
ｏｎ”をトークンｔ₅で置き換えた単語・トークンの一
次元列を生成する。

【００６１】単語・トークン分類手段６は、この単語・
トークンの一次元列に存在する“ｈｅ”、“ｓｈｅ”、
“ｉｔ”、“Ｌｏｎｄｏｎ”、“ｃａｒ”、“ｔｒａｃ
ｋ”、“ｗａｇｏｎ”・・・などの単語及び“ｔ₁”、
“ｔ₅”などのトークンについての分類処理を行い、図
１２（ｂ）のＤ個の単語・トークンクラス｛Ｔ₁、
Ｔ ₂、Ｔ₃、Ｔ₄、・・・、Ｔ_D｝を生成する。

【００６２】単語・トークンクラス｛Ｔ₁、Ｔ₂、
Ｔ₃、Ｔ₄、・・・、Ｔ_D｝において、例えば、“ｈ
ｅ”、“ｓｈｅ”、“ｉｔ”・・・などの単語やトーク
ンが単語・トークンクラスＴ₅に属し、“ｔ₁”、“Ｌ
ｏｎｄｏｎ”・・・などの単語やトークンが単語・トー
クンクラスＴ₂₈に属し、“ｃａｒ”、“ｔｒａｃｋ”、
“ｗａｇｏｎ”、“ｔ₅”・・・などの単語やトークン
が単語・トークンクラスＴ₃₂に属し、“ｎｅｗ”、“ｏ
ｌｄ”・・・などの単語やトークンが単語・トークンク
ラスＴ₆₃に属し、“Ｔｏｙｏｔａ”、“Ｎｉｓｓａ
ｎ”、“ＧＭ”・・・などの単語やトークンが単語・ト
ークンクラスＴ₃₀₀に属している。このように、単語・
トークンクラス｛Ｔ₁、Ｔ₂、Ｔ₃、Ｔ₄、・・・、Ｔ
_D｝には、単語とトークンとの区別なく、単語とトーク
ンとが混在して分類されている。

【００６３】連語置換手段７は、図１２（ｂ）の単語・
トークンクラス｛Ｔ₁、Ｔ₂、Ｔ₃、Ｔ₄、・・・、Ｔ
_D｝に存在する“ｔ₁”、“ｔ₅”などのトークンを、
テキストデータの単語の一次元列に存在する連語で逆置
換することにより、図１２（ｃ）の単語・連語クラス
｛Ｒ₁、Ｒ₂、Ｒ₃、Ｒ₄、・・・、Ｒ_D｝を生成す
る。例えば、単語・トークンクラスＴ₂₈に属しているト
ークンｔ₁は、単語・トークン列生成手段５により、
テキストデータの単語の一次元列に存在する“Ｎｅｗ
Ｙｏｒｋ”と置換されたものなので、このトークンｔ₁
を“ＮｅｗＹｏｒｋ”で逆置換することにより、単語
・連語クラスＲ₂₈を生成し、単語・トークンクラスＴ₃₂
に属しているトークンｔ₅は、単語・トークン列生成手
段５により、テキストデータの単語の一次元列に存在す
る“Ｎｉｓｓａｎｔｒａｃｋ”及び“Ｔｏｙｏｔａ
ｗａｇｏｎ”と置換されたものなので、このトークンｔ
₅を“Ｎｉｓｓａｎｔｒａｃｋ”及び“Ｔｏｙｏｔａ
ｗａｇｏｎ”で逆置換することにより、単語・連語ク
ラスＲ₃₂を生成する。

【００６４】図１３は、図１の単語・連語分類処理装置
を実現するシステム構成を示すブロック図である。図１
３において、単語・連語分類処理部４１のメモリインタ
ーフェース４２、４６、ＣＰＵ４３、ＲＯＭ４４、ワー
クＲＡＭ４５、ＲＡＭ４７、ドライバ７１及び通信イン
タフェース７２はバス４８を介して互いに接続され、テ
キストデータ４０が単語・連語分類処理部４１に入力さ
れると、ＲＯＭ４４に格納されているプログラムに従っ
て、ＣＰＵ４３はテキストデータ４０を処理し、テキス
トデータ４０の単語及び連語の分類処理を行う。テキス
トデータ４０の単語及び連語の分類処理結果は、単語・
連語辞書４９に格納される。なお、テキストデータ４０
や単語及び連語の分類処理結果を通信インタフェース７
２から通信ネットワーク７３を介して送信したり、受信
したりすることも可能である。

【００６５】また、単語及び連語の分類処理を行うプロ
グラムを、ハードディスク７４、ＩＣメモリカード７
５、磁気テープ７６、フロッピーディスク７７またはＣ
Ｄ−ＲＯＭやＤＶＤ−ＲＯＭなどの光ディスク７８によ
る記憶媒体からＲＡＭ４７にロードした後、このプログ
ラムをＣＰＵ４３で実行させるようにしてもよい。

【００６６】さらに、単語及び連語の分類処理を行うプ
ログラムを、通信インタフェース７２を介して通信ネッ
トワーク７３から取り出すこともできる。通信インタフ
ェース７２と接続される通信ネットワーク７３として、
例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒ
ｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒ
ｋ）、インターネット、アナログ電話網、デジタル電話
網（ＩＳＤＮ：ＩｎｔｅｇｒａｌＳｅｒｖｉｃｅＤ
ｉｇｉｔａｌＮｅｔｗｏｒｋ）、ＰＨＳ（パーソナル
ハンディシステム）や衛星通信などの無線通信網などを
用いることが可能である。

【００６７】図１４は、図１の単語・連語分類処理装置
の動作を示すフローチャートである。図１４において、
まず、ステップＳ１に示すように、単語クラスタリング
処理を行う。この単語クラスタリング処理では、複数の
単語の一次元列（ｗ₁ｗ₂ｗ ₃ｗ₄・・・ｗ_T）として
のテキストデータから、互いに異なるＶ個の単語
｛ｖ ₁、ｖ₂、ｖ₃、ｖ₄、・・・、ｖ_V｝を抽出し、
Ｖ個の単語の集合｛ｖ₁、ｖ ₂、ｖ₃、ｖ₄、・・・、
ｖ_V｝をＣ個の単語クラス｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、
・・・、Ｃ_C｝に分割する第１のクラスタリング処理を
行う。

【００６８】ここで、Ｖ個の単語｛ｖ₁、ｖ₂、ｖ₃、
ｖ₄、・・・、ｖ_V｝それぞれに単語クラス｛Ｃ₁、Ｃ
₂、Ｃ₃、Ｃ₄、・・・、Ｃ_V｝を割り当ててから、Ｖ
個の単語クラス｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ
_V｝についてマージ処理を行うことにより、Ｖ個の単語
クラス｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ_V｝の個
数を１つずつ減らしてＣ個の単語クラス｛Ｃ₁、Ｃ₂、
Ｃ₃、Ｃ₄、・・・、Ｃ_C｝を生成する場合、Ｖが７０
００もの数となって大きなものとなるときは、マージ処
理を行うための（１）式の平均相互情報量ＡＭＩの計算
回数が莫大なものとなり、現実的ではなくなる。このた
め、ウィンドウ処理を行って、マージ処理を行う単語ク
ラスの数を減らすようにする。

【００６９】図１５は、ウィンドウ処理を説明する図で
ある。図１５（ａ）において、テキストデータのＶ個の
単語｛ｖ₁、ｖ₂、ｖ₃、ｖ ₄、・・・、ｖ_V｝それぞ
れに割り当てられたＶ個の単語クラス｛Ｃ₁、Ｃ₂、Ｃ
₃、Ｃ₄、・・・、Ｃ_V｝のうち、テキストデータでの
出現頻度の大きい単語に割り当てられたＣ＋１個の単語
クラス｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ _C、Ｃ
_C+1｝を取り出し、このＣ＋１個の単語クラス｛Ｃ₁、
Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ_C、Ｃ_C+1｝についての
マージ処理を行う。

【００７０】ここで、図１５（ｂ）に示すように、Ｍ個
の単語クラス｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・・・、
Ｃ_M｝は、ウィンドウ内のＣ＋１個の単語クラス
｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ_C、Ｃ_C+1｝に
ついてのマージ処理を行った場合、Ｍ個の単語クラス
｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ_M｝の数が１つ
減ってＭ−１個の単語クラス｛Ｃ₁、Ｃ₂、Ｃ₃、
Ｃ₄、・・・、Ｃ_M-1｝となるとともに、ウィンドウ内
のＣ＋１個の単語クラス｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・
・・、Ｃ _C、Ｃ_C+1｝の数も１つ減ってＣ個の単語クラ
ス｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ_C｝となる。

【００７１】この場合、図１５（ｃ）に示すように、ウ
ィンドウ外の単語クラス｛Ｃ_C+1、・・・、Ｃ_M-1｝の
うち、テキストデータでの出現頻度が最も大きい単語ク
ラスＣ_C+1をウィンドウ内に入れ、ウィンドウ内の単語
クラスの数が一定に保たれるようにする。

【００７２】そして、ウィンドウ外に単語クラスがなく
なり、図１５（ｄ）のＣ個の単語クラス｛Ｃ₁、Ｃ₂、
Ｃ₃、Ｃ₄、・・・、Ｃ_C｝が生成された時に、単語ク
ラスタリング処理を終了する。

【００７３】なお、上述した実施例では、ウィンドウ内
の単語クラスの個数をＣ＋１個に設定したが、Ｃ＋１個
以外のＶ個未満の数でもよく、また、途中で変化させる
ようにしてもよい。

【００７４】図１６は、ステップＳ１の単語クラスタリ
ング処理を示すフローチャートである。図１６におい
て、まず、ステップＳ１０に示すように、Ｔ個の単語の
一次元列（ｗ₁ｗ₂ｗ₃ｗ₄・・・ｗ_T）としてのテキ
ストデータに基づいて、重複を除いた全てのＶ個の単語
｛ｖ₁、ｖ₂、ｖ₃、ｖ₄、・・・、ｖ_V｝の出現頻度
を調べ、これらのＶ個の単語｛ｖ₁、ｖ₂、ｖ₃、
ｖ₄、・・・、ｖ_V｝を出現頻度の高い単語から順に並
べて、これらのＶ個の単語｛ｖ₁、ｖ₂、ｖ₃、ｖ₄、
・・・、ｖ_V｝のそれぞれをＶ個の単語クラス｛Ｃ₁、
Ｃ₂、Ｃ₃、Ｃ₄、・・・、Ｃ_V｝に割り当てる。

【００７５】次に、ステップＳ１１に示すように、Ｖ個
の単語クラス｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・・・、
Ｃ_V｝の単語のうち、出現頻度の高い単語クラスの単語
から、Ｖ個未満のＣ＋１個の単語クラスの単語を１つの
ウィンドウ内の単語クラスの単語とする。

【００７６】次に、ステップＳ１２に示すように、１つ
のウィンドウ内の単語クラスの単語の中で、全ての組み
合わせの仮ペアを作り、各仮ペアを仮マージした時の平
均相互情報量ＡＭＩを（１）式により計算する。

【００７７】次に、ステップＳ１３に示すように、全て
の組み合わせの仮ペアについての平均相互情報量ＡＭＩ
のうち、最大となる平均相互情報量ＡＭＩを有する仮ペ
アを本マージすることにより、単語クラスを１つだけ減
らし、本マージ後の１つのウィンドウ内の単語クラスの
単語を更新する。

【００７８】次に、ステップＳ１４に示すように、ウィ
ンドウ外の単語クラスはなくなり、かつ、ウィンドウ内
の単語クラスはＣ個になったかどうかを判断し、この条
件が成り立たない場合、ステップＳ１５に進み、現在の
ウィンドウよりも外側にあり、最大の出現頻度を有する
クラスの単語をウィンドウ内に入れ、ステップＳ１２に
戻り、以上の処理を繰り返すことにより、単語クラスの
数を減少させる。

【００７９】一方、ステップＳ１４の条件が成り立ち、
ウィンドウ外に単語クラスがなくなり、単語クラスの数
がＣ個となった場合、ステップＳ１６に進み、ウィンド
ウ内のＣ個の単語クラス｛Ｃ₁、Ｃ₂、Ｃ₃、Ｃ₄、・
・・、Ｃ_C｝をメモリに記憶する。

【００８０】次に、図１４のステップＳ２に示すよう
に、クラスチェーン抽出処理を行う。このクラスチェー
ン抽出処理では、ステップＳ１の第１のクラスタリング
処理に基づいて生成されたテキストデータの単語クラス
の一次元列において、所定のしきい値以上の相互情報量
を有する隣接する２つの単語クラスをチェーンで結ぶこ
とにより、チェーンで結ばれた単語クラス列の集合を抽
出する。

【００８１】図１７は、ステップＳ２のクラスチェーン
抽出処理の第１実施例を示すフローチャートである。図
１７において、まず、ステップＳ２０に示すように、テ
キストデータの単語クラスの一次元列から、互いに隣接
する２つの単語クラス（Ｃ_i、Ｃ_j）を取り出す。

【００８２】次に、ステップＳ２１に示すように、ステ
ップＳ２０で取り出した２つの単語クラス（Ｃ_i、
Ｃ_j）についての相互情報量ＭＩ（Ｃ_i、Ｃ_j）を
（２）式により計算する。

【００８３】次に、ステップＳ２２に示すように、ステ
ップＳ２１で計算した相互情報量ＭＩ（Ｃ_i、Ｃ_j）が
所定のしきい値ＴＨ以上であるかどうかを判断し、相互
情報量ＭＩ（Ｃ_i、Ｃ_j）が所定のしきい値ＴＨ以上で
ある場合、ステップＳ２３に進んで、ステップＳ２０で
取り出した２つの単語クラス（Ｃ_i、Ｃ_j）をクラスチ
ェーンで結んでメモリに格納し、相互情報量ＭＩ
（Ｃ_i、Ｃ_j）が所定のしきい値ＴＨより小さい場合、
ステップＳ２３をスキップする。

【００８４】次に、ステップＳ２４に示すように、メモ
リに格納されているクラスチェーンで結ばれた単語クラ
スにおいて、単語クラスＣ_iで終了しているクラスチェ
ーンが存在するかどうかを判断し、単語クラスＣ_iで終
了しているクラスチェーンが存在する場合、ステップＳ
２５に進んで、単語クラスＣ_iで終了しているクラスチ
ェーンに単語クラスＣ_jをつなぐ。

【００８５】一方、ステップＳ２４において、単語クラ
スＣ_iで終了しているクラスチェーンが存在しない場
合、ステップＳ２５をスキップする。次に、ステップＳ
２６に示すように、テキストデータの単語クラスの一次
元列から、互いに隣接する２つの単語クラス（Ｃ_i、Ｃ
_j）を全て取り出したかどうかを判断し、互いに隣接す
る２つの単語クラス（Ｃ_i、Ｃ_j）を全て取り出した場
合、クラスチェーン抽出処理を終了し、互いに隣接する
２つの単語クラス（Ｃ _i、Ｃ_j）を全て取り出していな
い場合、ステップＳ２０に戻って以上の処理を繰り返
す。

【００８６】図１８は、ステップＳ２のクラスチェーン
抽出処理の第２実施例を示すフローチャートである。図
１８において、まず、ステップＳ２０１に示すように、
テキストデータの単語クラスの一次元列から、互いに隣
接する２つの単語クラス（Ｃ_i、Ｃ_j）を順次に取り出
す。そして、取り出した２つの単語クラス（Ｃ_i、
Ｃ_j）について、相互情報量ＭＩ（Ｃ_i、Ｃ_j）を
（２）式により計算することにより、長さ２の全てのク
ラスチェーンをテキストデータの単語クラスの一次元列
から抽出する。

【００８７】次に、ステップＳ２０２に示すように、長
さ２の全てのクラスチェーンをそれぞれオブジェクトで
置き換える。ここで、オブジェクトは、上述したトーク
ンと同じものを表しているが、長さ２のクラスチェーン
に付与されたトークンを、特に、オブジェクトと呼ぶ。

【００８８】次に、ステップＳ２０３に示すように、テ
キストデータのクラスの一次元列に対し、ステップＳ２
０２でオブジェクトが付与された長さ２のクラスチェー
ンをオブジェクトで置き換え、テキストデータのクラス
とオブジェクトの一次元列を生成する。

【００８９】次に、ステップＳ２０４に示すように、テ
キストデータのクラスとオブジェクトの一次元列の中に
存在する１つのオブジェクトを１つのクラスとみなし、
２つのクラス（Ｃ_i、Ｃ_j）についての相互情報量ＭＩ
（Ｃ_i、Ｃ_j）を（２）式により計算する。すなわち、
テキストデータのクラスとオブジェクトの一次元列にお
いての相互情報量ＭＩ（Ｃ_i、Ｃ_j）は、互いに隣接す
る１つのクラスと１つのクラスとの間で算出される場
合、互いに隣接する１つのクラスと１つのオブジェクト
（長さ２のクラスチェーン）との間で算出される場合、
及び互いに隣接する１つのオブジェクト（長さ２のクラ
スチェーン）と１つのオブジェクト（長さ２のクラスチ
ェーン）との間で算出される場合がある。

【００９０】次に、ステップＳ２０５に示すように、ス
テップＳ２０４で計算した相互情報量ＭＩ（Ｃ_i、
Ｃ_j）が所定のしきい値ＴＨ以上であるかどうかを判断
し、相互情報量ＭＩ（Ｃ_i、Ｃ_j）が所定のしきい値Ｔ
Ｈ以上である場合、ステップＳ２６に進んで、ステップ
Ｓ２０４で取り出した互いに隣接する２つのクラス、又
は互いに隣接する１つのクラスと１つのオブジェクト、
又は互いに隣接する２つのオブジェクトをクラスチェー
ンで結び、相互情報量ＭＩ（Ｃ_i、Ｃ_j）が所定のしき
い値ＴＨより小さい場合、ステップＳ２０６をスキップ
する。

【００９１】図１９は、テキストデータのクラスとオブ
ジェクトの一次元列において抽出されたクラスチェーン
を示す図である。図１９において、互いに隣接する１つ
のクラスと１つのクラスとの間でクラスチェーンが抽出
された場合、長さ２のクラスチェーン（オブジェクト）
が生成され、互いに隣接する１つのクラスと１つのオブ
ジェクトとの間でクラスチェーンが抽出された場合、長
さ３のクラスチェーンが生成され、互いに隣接する１つ
のオブジェクトと１つのオブジェクトとの間でクラスチ
ェーンが抽出された場合、長さ４のクラスチェーンが生
成される。

【００９２】次に、図１８のステップＳ２０７に示すよ
うに、クラスチェーン抽出処理が所定の回数行われたか
どうかを判断し、所定の回数行われていない場合は、ス
テップＳ２０２に戻って以上の処理を繰り返す。

【００９３】このように、長さ２のクラスチェーンをオ
ブジェクトに置き換えて、相互情報量ＭＩ（Ｃ_i、
Ｃ_j）を算出することを繰り返すことにより、任意の長
さのクラスチェーンを抽出することができる。

【００９４】次に、図１４のステップＳ３に示すよう
に、トークン置換処理を行う。このトークン置換処理で
は、ステップＳ２のクラスチェーン抽出処理で抽出され
た単語クラス列に固有のトークンを対応させ、この単語
クラス列に属する単語列をテキストデータの単語の一次
元列から検索し、テキストデータの単語列を対応するト
ークンで置換することにより、テキストデータについて
の単語とトークンとの一次元列を生成する。

【００９５】図２０は、ステップＳ３のトークン置換処
理を示すフローチャートである。図２０において、ま
ず、ステップＳ３０に示すように、抽出されたクラスチ
ェーンを重複を除いて所定の規則でソートし、それぞれ
のクラスチェーンにトークンを対応させて、クラスチェ
ーンに名前を付ける。ここで、クラスチェーンのソート
は、例えば、ＡＳＣＩＩコード順で行う。

【００９６】次に、ステップＳ３１に示すように、トー
クンに対応させたクラスチェーンを１つ取り出す。次
に、ステップＳ３２に示すように、テキストデータの単
語の一次元列の中にクラスチェーンで結ばれた単語クラ
ス列に属する単語列が存在するかどうかを判断し、クラ
スチェーンで結ばれた単語クラス列に属する単語列が存
在する場合、ステップＳ３３に進み、テキストデータの
対応する単語列を１つのトークンで置き換え、クラスチ
ェーンで結ばれた単語クラス列に属する単語列がテキス
トデータの単語の一次元列の中に存在しなくなるまで以
上の処理を繰り返す。

【００９７】一方、クラスチェーンで結ばれた単語クラ
ス列に属する単語列が存在しない場合、ステップＳ３４
に進み、ステップＳ３０でトークンに対応させた全ての
クラスチェーンについての連語・トークン置換処理が終
了したかどうかを判断し、全てのクラスチェーンについ
ての連語・トークン置換処理が終了してない場合、ステ
ップＳ３１に戻って、新たなクラスチェーンを１つ取り
出して、以上の処理を繰り返す。

【００９８】次に、図１４のステップＳ４に示すよう
に、単語・トークンクラスタリング処理を行う。この単
語・トークンクラスタリング処理では、テキストデータ
についての単語とトークンとの一次元列において、互い
に異なる単語と互いに異なるトークンとを抽出し、単語
とトークンとが混在する集合を単語・トークンクラス
｛Ｔ₁、Ｔ₂、Ｔ₃、Ｔ₄、・・・、Ｔ_D｝に分割する
第２のクラスタリング処理を行う。

【００９９】図２１は、ステップＳ４の単語・トークン
クラスタリング処理を示すフローチャートである。図２
１において、ステップＳ４０に示すように、ステップＳ
３で得られたテキストデータの単語・トークンの一次元
列を入力データとして、ステップＳ１の第１の単語クラ
スタリング処理と同一の方法でクラスタリングを行うこ
とより、単語・トークンクラス｛Ｔ₁、Ｔ₂、Ｔ₃、Ｔ
₄、・・・、Ｔ_D｝を生成する。この第２のクラスタリ
ング処理では、単語とトークンは区別せず、トークンは
１つの単語として扱われる。また、生成されたそれぞれ
の単語・トークンクラス｛Ｔ ₁、Ｔ₂、Ｔ₃、Ｔ₄、・
・・、Ｔ_D｝は、その要素として単語とトークンを含ん
でいる。

【０１００】次に、図１４のステップＳ５に示すよう
に、データ出力処理を行う。このデータ出力処理では、
テキストデータの単語の一次元列に存在する単語列のう
ち、トークンに対応するものを連語として抽出し、単語
・トークンクラス｛Ｔ₁、Ｔ₂、Ｔ₃、Ｔ₄、・・・、
Ｔ_D｝の中のトークンを連語で置換することにより、単
語と連語とが混在する集合を単語・連語クラス｛Ｒ₁、
Ｒ₂、Ｒ₃、Ｒ₄、・・・、Ｒ_D｝に分割する第３のク
ラスタリング処理を行う。

【０１０１】図２２は、ステップＳ５のデータ出力処理
を示すフローチャートである。図２２において、まず、
ステップＳ５０に示すように、１つの単語・トークンク
ラスＴ_iから１つのトークンｔ_Kを取り出す。

【０１０２】次に、ステップＳ５１に示すように、テキ
ストデータの単語の一次元列をスキャンし、ステップＳ
５２において、ステップＳ５０で取り出したトークンｔ
_Kに対応するクラスチェーンで結ばれた単語クラス列に
属する単語列が存在するかどうかを判断する。そして、
トークンｔ_Kに対応するクラスチェーンで結ばれた単語
クラス列に属する単語列がテキストデータの単語の一次
元列に存在する場合、ステップＳ５３に進んで、この単
語列を連語とみなす処理を繰り返し、テキストデータの
単語の一次元列をスキャンすることにより得られたこれ
らの連語でトークンｔ_Kを置き換える。

【０１０３】一方、トークンｔ_Kに対応するクラスチェ
ーンで結ばれた単語クラス列に属する単語列がテキスト
データの単語の一次元列に存在しない場合、ステップＳ
５４に進んで、全てのトークンについて処理が終了した
かどうかを判断し、全てのトークンについて処理が終了
していない場合、ステップＳ５０に進んで、以上の処理
を繰り返す。

【０１０４】例えば、ステップＳ３のトークン置換処理
において、テキストデータの単語の一次元列（ｗ₁ｗ₂
ｗ₃ｗ₄・・・ｗ_T）のうち、単語列（ｗ₁ｗ₂）、
（ｗ₁₃ｗ₁₄）、・・・がトークンｔ₁で置換され、単語
列（ｗ₄ｗ₅ｗ₆）、（ｗ₁₇ｗ ₁₈）、・・・がトークン
ｔ₂で置換されたとすると、トークンｔ₁に対応する連
語として、｛ｗ₁−ｗ₂、ｗ₁₃−ｗ₁₄、・・・｝がテキ
ストデータから抽出され、トークンｔ₂に対応する連語
として、｛ｗ₄−ｗ₅−ｗ₆、ｗ₁₇−ｗ₁₈、・・・｝が
テキストデータから抽出される。

【０１０５】１つの単語・トークンクラスＴ_iが単語の
集合Ｗ_iとトークンの集合Ｊ_i＝｛ｔ_i1、ｔ_i2、・・・
ｔ_in｝からなり、トークンクラスＴ_iが｛Ｗ_i∪Ｊ_i｝
により表され、、トークンの集合Ｊ_iの中の１つのトー
クンｔ_imが、連語の集合Ｖ_im＝｛ｖ_im ⁽¹⁾、ｖ_im ⁽²⁾、
・・・｝に逆トークン置換されたとすると、１つの単語
・連語クラスＲ_iは、

【０１０６】

【数２】

【０１０７】で与えられる。以上説明したように、本発
明の一実施例による単語・連語分類処理装置によれば、
単語と連語とを区別することなく分類することができ
る。

【０１０８】次に、本発明の一実施例による音声認識装
置について説明する。図２３は、図１の単語・連語分類
処理装置により得られた単語・連語分類処理結果を利用
して音声認識を行う音声認識装置の構成を示すブロック
図である。

【０１０９】図２３において、所定のテキストデータ４
０に含まれる単語と連語とが、単語・連語分類処理部４
１により単語と連語とが混在するクラスに分類され、こ
の分類された単語と連語とが単語・連語辞書４９に格納
されている。

【０１１０】一方、複数の単語と連語とからなる発音音
声は、マイクロフォン５０によりアナログ音声信号に変
換された後、Ａ／Ｄ変換器５１でデジタル音声信号に変
換され、特徴抽出部５２に入力される。特徴抽出部５２
は、デジタル音声信号に対して、例えば、ＬＰＣ分析を
行い、ケプストラム係数や対数パワーなどの特徴パラメ
ータを抽出する。特徴抽出部５２で抽出された特徴パラ
メータは、音声認識部５４に出力され、音素隠れマルコ
フモデルなどの言語モデル５５を参照するとともに、単
語・連語辞書４９に格納されている単語と連語との分類
結果を参照しながら、単語及び連語ごとに音声認識を行
う。

【０１１１】図２４は、単語・連語分類処理結果を利用
して音声認識を行う場合の例を示す図である。図２４に
おいて、「本日は晴天なり」と発声された発音音声がマ
イクロフォン５０に入力され、この発音音声に対して音
声モデルを適用するとにより、例えば、「本日は晴天な
り」という認識結果と「本日は静電なり」という認識結
果とが得られる。これらの音声モデルによる認識結果に
対し、言語モデルによる処理を行って単語・連語辞書４
９の参照を行い、「晴天なり」という連語が単語・連語
辞書４９に登録されている場合、「本日は晴天なり」と
いう認識結果に対しては高い確率が与えられ、「本日は
静電なり」という認識結果に対しては低い確率が与えら
れる。

【０１１２】以上説明したように、本発明の一実施例に
よる音声認識装置によれば、単語・連語辞書４９を参照
して音声認識を行うことにより、より正確な認識処理が
可能になる。

【０１１３】次に、本発明の一実施例による機械翻訳装
置について説明する。図２５は、図１の単語・連語分類
処理装置により得られた単語・連語分類処理結果を利用
して機械翻訳を行う機械翻訳装置の構成を示すブロック
図である。

【０１１４】図２５において、所定のテキストデータ４
０に含まれる単語と連語とが、単語・連語分類処理部４
１により単語と連語とが混在するクラスに分類され、こ
の分類された単語と連語とが単語・連語辞書４９に格納
されている。また、用例原文とその用例原文に対する用
例訳文とが、それぞれ対応させて用例文集６０に格納さ
れている。

【０１１５】用例検索部６１に原文が入力されると、単
語・連語辞書４９を参照しながら入力された原文の単語
が属するクラスを検索し、そのクラスと同一のクラスに
属する単語又は連語により構成される用例原文を用例文
集６０から検索する。用例文集６０から検索された用例
原文及びその用例訳文は、用例適用部６２に入力され、
用例訳文の中の訳語を、入力された原文の単語に対する
訳語に置換することにより、入力された原文に対する訳
文を生成する。

【０１１６】図２６は、単語・連語分類処理結果を利用
して音声認識を行う場合の例を示す図である。図２６に
おいて、“Ｔｏｙｏｔａ”と“ＫｏｈｌｂｅｒｇＫｒ
ａｖｉｓＲｏｂｅｒｔ＆Ｃｏ．”とは同一のクラ
スに属し、“ｇａｉｎｅｄ”と“ｌｏｓｔ”とは同一の
クラスに属し、“２”と“１”とは同一のクラスに属
し、“３０１／４”と“８０１／２”とは同一のク
ラスに属しているものとする。

【０１１７】原文として、“Ｔｏｙｏｔａｇａｉｎｅ
ｄ２ｔｏ３０１／４．”が入力されると、用例
原文として、用例文集６０から“ＫｏｈｌｂｅｒｇＫ
ｒａｖｉｓＲｏｂｅｒｔ＆Ｃｏ．ｌｏｓｔ１
ｔｏ８０１／２．”が検索されるとともに、その
用例原文に対する用例訳文「ＫｏｈｌｂｅｒｇＫｒａ
ｖｉｓＲｏｂｅｒｔ＆Ｃｏ．社は、１ドル値を下
げて終値８０１／２ドルだった。」も検索される。

【０１１８】次に、用例原文の原語“Ｋｏｈｌｂｅｒｇ
ＫｒａｖｉｓＲｏｂｅｒｔ＆Ｃｏ．”と同一のク
ラスに属している入力原文の原語“Ｔｏｙｏｔａ”に対
する訳語「トヨタ」で、用例訳文の訳語「Ｋｏｈｌｂｅ
ｒｇＫｒａｖｉｓＲｏｂｅｒｔ＆Ｃｏ．社」を
置き換え、用例原文の原語“ｌｏｓｔ”と同一のクラス
に属している入力原文の原語“ｇａｉｎｅｄ”に対する
訳語「上げて」で、用例訳文の訳語「下げて」を置き換
え、用例訳文の数値“１”を“２”で置き換え、用例訳
文の数値“８０１／２”を“３０１／４”で置き換
えることにより、入力原文に対する訳文「トヨタは、２
ドル値を上げて終値３０１／２ドルだった。」を出力
する。

【０１１９】以上説明したように、本発明の一実施例に
よる機械翻訳装置によれば、単語・連語辞書４９を参照
して機械翻訳を行うことにより、より正確な翻訳処理が
可能になる。

【０１２０】以上、本発明の一実施例について説明した
が、本発明は上述した実施例に限定されるものではな
く、本発明の技術的思想の範囲内で他の様々な変更が可
能である。例えば、上述した実施例では、単語・連語分
類処理装置を音声認識装置及び機械翻訳装置に適用した
場合について説明したが、単語・連語分類処理装置を文
字認識装置に用いるようにしてもよい。また、上述した
実施例では、単語と連語とを混在される分類する場合に
ついて説明したが、連語のみを抽出し、この抽出した連
語を分類するようにしてもよい。

【０１２１】

【発明の効果】以上説明したように、本発明の単語・連
語分類処理装置によれば、テキストデータに含まれる単
語と連語とを一緒に分類して、単語と連語とが混在する
クラスを生成することにより、単語と単語とをまとめて
分類するだけでなく、単語と連語あるいは連語と連語と
をまとめて分類することができ、単語と連語あるいは連
語と連語との対応関係や類似度を容易に判別することが
できる。

【０１２２】また、本発明の一態様によれば、テキスト
データの単語クラス列にトークンを付与して単語クラス
列を１つの単語とみなし、テキストデータに含まれる単
語とトークンを付与された単語クラス列とを同等に取り
扱ってこれらを分類してから、テキストデータに存在す
る単語列で対応する単語クラス列を置き換えるようにし
たので、単語と連語との区別なく分類処理を行うことが
できるとともに、テキストデータからの連語の抽出を高
速に行うことができる。

【０１２３】また、本発明の連語抽出装置によれば、テ
キストデータの単語列を構成する個々の単語を、その単
語が属する単語クラスで置換し、テキストデータにおい
て出現する確率が所定値以上の単語クラス列を抽出して
から、テキストデータに存在する連語を抽出することに
より、連語を高速に抽出することができる。

【０１２４】また、本発明の音声認識装置によれば、単
語と連語あるいは連語と連語の対応関係や類似度を用い
ながら音声認識を行うことができ、正確な処理が可能に
なる。

【０１２５】また、本発明の機械翻訳装置によれば、用
例文集に格納されている用例原文の単語が連語に置き換
わった原文が入力された場合においても、入力された原
文に用例原文を適用して機械翻訳を行うことができ、単
語と連語あるいは連語と連語の対応関係や類似度を用い
た正確な機械翻訳が可能になる。

【図面の簡単な説明】

【図１】本発明の一実施例に係わる単語・連語分類処理
装置の機能的な構成を示すブロック図である。

【図２】本発明の一実施例に係わる単語・連語分類処理
装置の単語クラスタリング処理を説明する図である。

【図３】図１の単語分類手段の機能的な構成を示すブロ
ック図である。

【図４】本発明の一実施例に係わる単語・連語分類処理
装置の単語クラス列生成処理を説明する図である。

【図５】本発明の一実施例に係わる単語・連語分類処理
装置のクラスチェーン抽出処理を説明する図である。

【図６】図１の単語クラス列抽出手段の機能的な構成を
示すブロック図である。

【図７】本発明の一実施例に係わる単語・連語分類処理
装置によるクラスチェーンとトークンとの関係を示す図
である。

【図８】本発明の一実施例に係わる単語・連語分類処理
装置のトークン置換処理を説明する図である。

【図９】本発明の一実施例に係わる単語・連語分類処理
装置によるトークン置換処理の英文例を示す図である。

【図１０】図１の単語・トークン分類手段の機能的な構
成を示すブロック図である。

【図１１】本発明の一実施例に係わる単語・連語分類処
理装置によるトークンと連語の関係を示す図である。

【図１２】本発明の一実施例に係わる単語・連語分類処
理装置による単語・連語分類処理結果を示す図である。

【図１３】本発明の一実施例に係わる単語・連語分類処
理装置のシステム構成を示すブロック図である。

【図１４】本発明の一実施例に係わる単語・連語分類処
理装置の単語・連語分類処理を示すフローチャートであ
る。

【図１５】本発明の一実施例に係わる単語・連語分類処
理装置のウインドウ処理を説明する図である。

【図１６】本発明の一実施例に係わる単語・連語分類処
理装置の単語クラスタリング処理を示すフローチャート
である。

【図１７】本発明に係わる単語・連語分類処理装置のク
ラスチェーン抽出処理の第１実施例を示すフローチャー
トである。

【図１８】本発明に係わる単語・連語分類処理装置のク
ラスチェーン抽出処理の第２実施例を示すフローチャー
トである。

【図１９】本発明に係わる単語・連語分類処理装置のク
ラスチェーン抽出処理の第２実施例を説明する図であ
る。

【図２０】本発明の一実施例に係わる単語・連語分類処
理装置のトークン置換処理を示すフローチャートであ
る。

【図２１】本発明の一実施例に係わる単語・連語分類処
理装置の単語・トークンクラスタリング処理を示すフロ
ーチャートである。

【図２２】本発明の一実施例に係わる単語・連語分類処
理装置のデータ出力処理を示すフローチャートである。

【図２３】本発明の一実施例に係わる音声認識装置の機
能的な構成を示すブロック図である。

【図２４】本発明の一実施例に係わる音声認識方法を説
明する図である。

【図２５】本発明の一実施例に係わる機械翻訳装置の機
能的な構成を示すブロック図である。

【図２６】本発明の一実施例に係わる機械翻訳方法を説
明する図である。

【符号の説明】

１単語分類手段２単語クラス列生成手段３単語クラス列抽出手段４トークン付与手段５単語・トークン列生成手段６単語・トークン分類手段７連語置換手段４０テキストデータ４１単語・連語分類処理部４２、４６メモリインターフェイス４３ＣＰＵ４４ＲＯＭ４５ワークＲＡＭ４７ＲＡＭ４８バス４９単語・連語辞書５０マイクロフォン５１Ａ／Ｄ変換器５２特徴抽出部５３バッファメモリ５４音声認識部５５言語モデル６０用例文集６１用例検索部６２用例適用部

Claims

【特許請求の範囲】

【請求項１】複数の単語の一次元列としてのテキスト
データから、互いに異なるＶ個の単語を抽出し、前記Ｖ
個の単語の集合をＣ個の単語クラスに分割した第１のク
ラスタリングを生成するステップと、前記第１のクラスタリングに基づいて生成された前記テ
キストデータの単語クラスの一次元列において、隣接す
る単語クラス間の粘着度が全て所定値以上の単語クラス
列の集合を抽出するステップと、前記単語クラス列に固有のトークンを対応させ、前記単
語クラス列に属する単語列を前記テキストデータから検
索し、前記テキストデータの単語列を対応するトークン
で置換することにより、前記テキストデータについての
単語とトークンとの一次元列を生成するステップと、前記テキストデータについての単語とトークンとの一次
元列において、互いに異なる単語と互いに異なるトーク
ンとを抽出し、前記単語と前記トークンとが混在する集
合を単語・トークンクラスに分割した第２のクラスタリ
ングを生成するステップと、前記テキストデータに存在する単語列のうち、前記トー
クンに対応するものを連語として抽出し、前記単語・ト
ークンクラスの中のトークンを前記連語で置換すること
により、前記単語と前記連語とが混在する集合を単語・
連語クラスに分割した第３のクラスタリングを生成する
ステップとを備えることを特徴とする単語・連語分類処
理方法。
【請求項２】前記第１のクラスタリングは、前記単語
クラスの平均相互情報量に基づいて生成されることを特
徴とする請求項１に記載の単語・連語分類処理方法。
【請求項３】前記第２のクラスタリングは、前記単語
・トークンクラスの平均相互情報量に基づいて生成され
ることを特徴とする請求項１に記載の単語・連語分類処
理方法。
【請求項４】テキストデータに含まれる単語を分類し
た単語クラスを生成するステップと、前記単語クラスを前記テキストデータの単語の一次元列
にマッピングして単語クラスの一次元列を生成するステ
ップと、前記テキストデータの単語クラスの一次元列において、
隣接する単語クラス間の粘着度が全て所定値以上の単語
クラス列を、前記テキストデータの単語クラスの一次元
列から抽出するステップと、前記テキストデータに含まれる単語と前記単語クラス列
とを一緒に分類するステップと、前記単語クラス列を構成する個々の単語クラスから、前
記テキストデータに隣接して存在する個々の単語を別々
に取り出して連語を抽出するステップと、前記単語クラス列を前記単語クラス列に属する連語で置
換するステップとを備えることを特徴とする単語・連語
分類処理方法。
【請求項５】テキストデータに含まれる単語を分類し
た単語クラスを生成するステップと、前記単語クラスを前記テキストデータの単語の一次元列
にマッピングして単語クラスの一次元列を生成するステ
ップと、前記テキストデータの単語クラスの一次元列において、
隣接する単語クラス間の粘着度が全て所定値以上の単語
クラス列を、前記テキストデータの単語クラスの一次元
列から抽出するステップと、前記単語クラス列を構成する個々の単語クラスから、前
記テキストデータに隣接して存在する個々の単語を別々
に取り出して連語を抽出するステップとを備えることを
特徴とする連語抽出方法。
【請求項６】テキストデータの単語列から互いに異な
る単語を抽出し、抽出された前記単語の集合を分割して
単語クラスを生成する単語分類手段と、前記テキストデータの単語の一次元列を構成する個々の
単語を、前記単語が属する前記単語クラスで置換するこ
とにより、前記テキストデータの単語クラスの一次元列
を生成する単語クラス列生成手段と、前記テキストデータの単語クラスの一次元列において、
隣接する単語クラス間の粘着度が全て所定値以上の単語
クラス列を、前記テキストデータの単語クラスの一次元
列から抽出する単語クラス列抽出手段と、前記単語クラス列抽出手段により抽出された各単語クラ
ス列にトークンを付与するトークン付与手段と、前記テキストデータの単語の一次元列のうち、前記単語
クラス列抽出手段により抽出された単語クラス列に属す
る単語列を前記トークンで置換することにより、前記テ
キストデータの単語・トークンの一次元列を生成する単
語・トークン列生成手段と、前記テキストデータの単語・トークンの一次元列に含ま
れる単語とトークンとが混在する集合を分割して単語・
トークンクラスを生成する単語・トークン分類手段と、前記単語・トークンクラスの中のトークンを、前記単語
・トークン列生成手段により置換された単語列に逆置換
して連語を生成する連語置換手段とを備えることを特徴
とする単語・連語分類処理装置。
【請求項７】前記単語分類手段は、前記テキストデータの単語の一次元列から互いに異なる
単語を抽出し、所定の出現頻度を有する単語のそれぞれ
に固有の単語クラスを割り当てる初期化クラス設定部
と、単語クラスの集合から２つの単語クラスを取り出して仮
マージする仮マージ部と、前記テキストデータの仮マージされた単語クラスについ
ての平均相互情報量を算出する平均相互情報量算出部
と、前記単語クラスの集合のうち、前記平均相互情報量が最
大である２つの単語クラスを本マージする本マージ部と
を備えることを特徴とする請求項６に記載の単語・連語
分類処理装置。
【請求項８】前記単語クラス列抽出手段は、前記テキストデータの単語クラスの一次元列から、隣接
して存在する２つの単語クラスを順次に取り出す単語ク
ラス取出部と、前記単語クラス取出部により取り出した２つの単語クラ
スの相互情報量を算出する相互情報量算出部と、前記相互情報量が所定のしきい値以上の２つの単語クラ
スをクラスチェーンで結ぶクラスチェーン結合部とを備
えることを特徴とする請求項６に記載の単語・連語分類
処理装置。
【請求項９】前記単語・トークン分類手段は、前記テキストデータの単語・トークンの一次元列から互
いに異なる単語と互いに異なるトークンとを抽出し、所
定の出現頻度を有する単語とトークンとのそれぞれに固
有の単語・トークンクラスを割り当てる初期化クラス設
定部と、単語・トークンクラスの集合から２つの単語・トークン
クラスを取り出して仮マージする仮マージ部と、前記テキストデータの仮マージされた単語・トークンク
ラスについての平均相互情報量を算出する平均相互情報
量算出部と、前記単語・トークンクラスの集合のうち、前記平均相互
情報量が最大である２つの単語・トークンクラスを本マ
ージする本マージ部とを備えることを特徴とする請求項
６に記載の単語・連語分類処理装置。
【請求項１０】テキストデータから連語を抽出する連
語抽出手段と、前記テキストデータに含まれる単語と連語とを一緒に分
類して、単語と連語とが混在するクラスを生成する単語
・連語分類手段とを備えることを特徴とする単語・連語
分類処理装置。
【請求項１１】前記クラスは、前記クラスの平均相互
情報量に基づいて生成されることを特徴とする請求項１
０に記載の単語・連語分類処理装置。
【請求項１２】テキストデータに含まれる単語を分類
して単語クラスを生成する単語分類手段と、前記テキストデータの単語の一次元列を構成する個々の
単語を、前記単語が属する前記単語クラスで置換するこ
とにより、前記テキストデータの単語クラスの一次元列
を生成する単語クラス列生成手段と、前記テキストデータの単語クラスの一次元列において、
隣接する単語クラス間の粘着度が全て所定値以上の単語
クラス列を、前記テキストデータの単語クラスの一次元
列から抽出する単語クラス列抽出手段と、前記単語クラス列を構成する個々の単語クラスから、前
記テキストデータに隣接して存在する個々の単語を別々
に取り出して連語を抽出する連語抽出手段とを備えるこ
とを特徴とする連語抽出装置。
【請求項１３】前記単語クラスは、前記単語クラスの
平均相互情報量に基づいて生成されることを特徴とする
請求項１２に記載の連語抽出装置。
【請求項１４】所定のテキストデータに含まれる単語
と連語とを、単語と連語とが混在するクラスに分類して
格納している単語・連語辞書と、前記単語・連語辞書と所定の隠れマルコフモデルとを参
照することにより、発音音声を音声認識する音声認識手
段とを備えることを特徴とする音声認識装置。
【請求項１５】所定のテキストデータに含まれる単語
と連語とを、単語と連語とが混在するクラスに分類して
格納している単語・連語辞書と、用例原文と前記用例原文に対する用例訳文とを対応させ
て格納している用例文集と、入力された原文の単語が属するクラスと同一のクラスに
属する単語又は連語により構成される用例原文を前記用
例文集から検索する用例検索手段と、前記用例原文に対する用例訳文の中の訳語を、入力され
た原文の単語に対する訳語に置換することにより、前記
入力された原文に対する訳文を生成する用例適用手段と
を備えることを特徴とする機械翻訳装置。
【請求項１６】所定のテキストデータに含まれる単語
と連語とを、単語と連語とが混在するクラスに分類して
格納している単語・連語記憶媒体であって、前記クラスは、前記クラスの平均相互情報量に基づいて
生成されていることを特徴とする単語・連語記憶媒体。
【請求項１７】テキストデータの単語の一次元列から
互いに異なる単語を抽出し、抽出された前記単語の集合
を分割して単語クラスを生成する機能と、前記テキストデータの単語の一次元列を構成する個々の
単語を、前記単語が属する前記単語クラスで置換するこ
とにより、前記テキストデータの単語クラスの一次元列
を生成する機能と、前記テキストデータの単語クラスの一次元列から、隣接
する単語クラス間の粘着度が全て所定値以上の単語クラ
ス列を抽出する機能と、前記単語クラス列にトークンを付与する機能と、前記テキストデータの単語の一次元列のうち、前記単語
クラス列に属する単語列を前記トークンで置換すること
により、前記テキストデータの単語・トークンの一次元
列を生成する機能と、前記テキストデータの単語・トークンの一次元列に含ま
れる単語とトークンとが混在する集合を分割して単語・
トークンクラスを生成する機能と、前記単語・トークンクラスの中のトークンを、前記テキ
ストデータに存在する単語列に逆置換して連語を生成す
る機能とをコンピュータに実行させるプログラムを格納
したコンピュータ読み取り可能な記憶媒体。