JPH05314169A - 並列データ処理装置および並列形態素抽出方法 - Google Patents

並列データ処理装置および並列形態素抽出方法

Info

Publication number
JPH05314169A
JPH05314169A JP4115717A JP11571792A JPH05314169A JP H05314169 A JPH05314169 A JP H05314169A JP 4115717 A JP4115717 A JP 4115717A JP 11571792 A JP11571792 A JP 11571792A JP H05314169 A JPH05314169 A JP H05314169A
Authority
JP
Japan
Prior art keywords
parallel
input sentence
local memory
keyword
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4115717A
Other languages
English (en)
Inventor
Tetsuaki Isonishi
徹明 磯西
Atsuo Ozaki
敦夫 尾崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP4115717A priority Critical patent/JPH05314169A/ja
Publication of JPH05314169A publication Critical patent/JPH05314169A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Multi Processors (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 (修正有) 【目的】 形態素を抽出する処理を高速に実行する。 【構成】 ローカルメモリを有し、2次元アドレスによ
って対応付けできる要素プロセッサPEを多数接続した
並列データ処理装置において、マルチポートメモリをア
クセスするためのポートを要素プロセッサに1つずつ設
け、マルチポートメモリのポート数に等しい要素プロセ
ッサのポートとマルチポートメモリとを接続した。これ
により、全要素プロセッサで共通に使用するデータをマ
ルチポートメモリに格納し、マルチポートメモリのポー
ト数だけ各要素プロセッサが同時にアクセスできるよう
にした。また、m文字からなる1つの日本語の入力文の
部分文字列(m(m+1)/2通り)を各PEが持つP
Eアドレス(i,j)を用いて並列に発生させ、この部
分文字列をキーワードとして全てのPE又はマルチポー
トメモリに同一に格納されている単語辞書を並列に1回
の操作で検索できるようにした。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、2次元アドレスによ
り対応づけできる要素プロセッサ(PE)を多数接続し
た並列データ処理装置、およびこのような並列データ処
理装置において日本語のようにべた書きされる自然言語
を機械的に認識するために入力文の形態素抽出を並列に
行う並列形態素抽出方法に関するものである。
【0002】
【従来の技術】近年、自然言語の機械処理は、機械翻訳
システム,ワードプロセッサの「かな漢字変換」,テキ
ストのデータベース化のための自動キーワード付けな
ど、様々な分野で実用化が進められており、これらの処
理システムでは、ユーザの入力に対する実時間の応答が
可能な高速化が特に望まれている。さらに、この自然言
語の機械処理の中で、単語辞書を検索することによって
入力文の中に存在する可能性のある全単語(これを形態
素という)を抽出する処理、いわゆる形態素抽出処理
は、全体の処理時間に対して本処理に必要な処理時間の
比率が大きいことから、最も高速化が望まれる処理の一
つである。従来の形態素抽出処理としては、「文書解析
アクセラレータ(1) −形態素抽出マシンの試作−」(福
島俊一・他、情報学会自然言語処理研究会 75−9,
1990年)に、次の(a)〜(d)の4種類の方法が
示されている。 (a).従来の逐次型計算機により、入力文のある位置
から部分文字列を切り出して、その部分文字列に一致す
る単語を辞書から逐一読み出して照合を繰り返す逐次法
(一対一の照合)。 (b).本文献により新たに提案されている入力文を構
成する全文字の同時照合、シフトレジスタによる入力文
の順送りなどを組合わせた福島らのハードウェアアルゴ
リズムによる方法。 (c).共有メモリ方式の並列計算機において、入力文
から複数の部分文字列を切り出して各プロセッサに割り
当て、共有メモリに格納されている単語辞書とその部分
文字列とをプロセッサの数だけ並列に照合する方法(多
対一の照合)。 (d).連想メモリなどを使用し、入力文のある位置か
ら切り出した一つの部分文字列と複数のメモリセルに分
散して格納されている単語辞書内の単語とを同時に照合
する方法(一対多の照合)。
【0003】上記(a)の従来技術である(一対一の照
合)による方法(逐次法)は、汎用の計算機を使用する
ことにより、一般的に容易に実現可能であるが、部分文
字列毎に単語辞書を逐次的に検索する必要があり、高速
化のためには、一回の照合に要する単位時間を短くする
以外に方法はなく、飛躍的な高速化は望めないという問
題がある。上記(b)の方法は、並列処理を多少採り入
れてはいるものの、形態素抽出用の専用ハードウェアを
新たに開発することにより高速化を図るもので、基本的
には本ハードウェアを形態素抽出以外には使用すること
ができず、汎用性に欠けるという問題がある。そこで考
えられたのが、並列計算機を利用した並列処理方式によ
り準汎用的に形態素抽出処理を高速化する上記(c)お
よび(d)の従来技術である。然しながら上記(c)の
方法は、共有メモリ方式の並列計算機を使用しているた
め、共有メモリに格納されている単語辞書の検索のみな
らず、複数の要素プロセッサが同時に共有メモリをアク
セスする場合に、共有メモリが隘路となり、要素プロセ
ッサの数を十数台以上増やしても並列処理の効果が得ら
れず、飛躍的な高速化が望めないというのが一般的であ
る。上記(d)の従来技術である多対一の照合による方
法では、連想メモリを使用しなくてもローカルメモリを
有し、2次元アドレスにより対応づけできる要素プロセ
ッサ(PE)を多数接続した並列データ処理装置でも実
現可能であり、その構成と形態素抽出方法を以下に示
す。
【0004】図10は、例えば、ローカルメモリを有す
る同一構成の要素プロセッサ(PE)を物理的に2次元
格子状に多数接続した並列データ処理装置において、上
記(d)の方法を説明するための図である。図10にお
いて、1は要素プロセッサ(以下、PEとも言う)、2
は要素プロセッサを2次元格子状に接続した要素プロセ
ッサアレイ、3は要素プロセッサアレイ2を制御する制
御プロセッサ、4は一つの単語辞書を均等に分散させて
全ての要素プロセッサのローカルメモリに格納した単語
辞書、5は入力文、6は入力文に対応する1つの部分文
字列、7は入力文の全部分文字列、8は辞書中に存在し
たキーワード、9は1つの部分文字列をキーワードとし
て単語辞書を検索した辞書情報である。
【0005】次に図10を基に、入力文が与えられた時
に、単語辞書を検索することによって入力文5の中に存
在する可能性のある全単語(形態素)を抽出する、従来
の方法について説明する。 (a).制御プロセッサ3でm文字(本例では、6文
字)からなる入力文5が与えられると、6で示すような
入力文の部分文字列を生成する。この部分文字列6は入
力文がm文字なので全部で、すなわち全部分文字列7と
してm(m+1)/2通り存在する。 (b).次に、m(m+1)/2通りある部分文字列7
を制御プロセッサ3から要素プロセッサアレイ2の各P
E1に順番に部分文字列6(本例では「研究所」)をブ
ロードキャストする。 (c).次に、全てのPE1にブロードキャストされた
部分文字列「研究所」6を基に、PE1内のローカルメ
モリに分散して格納されている単語辞書4の中からキー
ワード「研究所」8を検索する。この検索時に行う部分
文字列「研究所」6と単語辞書のキーワード「研究所」
8との照合は、PEの数だけ並列に行うことができる。 (d).単語辞書4の中から部分文字列6に対応するキ
ーワード8が存在すれば、そのキーワード8とそれに対
応する辞書情報9とを、キーワード8が見つかったPE
1から制御プロセッサ3に転送する。 (e).上記(b),(c),(d)の処理を、m(m
+1)/2通りくり返すことにより、全部分文字列7の
検索をし終える。
【0006】
【発明が解決しようとする課題】上記のような従来の並
列形態素抽出方法では以上のように処理が行われてお
り、部分文字列と単語辞書のキーワードとの照合は、P
Eの数だけ並列に行うことができるが、全部分文字列を
照合するためには、部分文字列の照合をm(m+1)/
2回行う必要があり、入力文の文字数mが多くなればな
るほど形態素抽出処理に時間がかかる。したがってヒュ
ーリスティック(heuristics)を用いて繰り
返し数を削減し、実用的な時間内で処理を終了するよう
にしているが、このため正確な形態素抽出ができず、自
然言語を認識するための機械処理全体での認識精度が悪
くなるという問題点があった。
【0007】この発明は、かかる問題点を解決するため
になされたものであり、入力文に対してm(m+1)/
2通りある部分文字列と単語辞書のキーワードとの照合
を、m(m+1)/2回繰り返すことなく、1回の操作
で行える並列データ処理装置および並列形態素抽出方法
を提供することを目的としている。
【0008】
【課題を解決するための手段】本願第1の発明に係わる
並列形態素抽出方法は、キーワードにより検索すること
ができる単語辞書を全てのPEのローカルメモリに同一
に格納し、ローカルメモリ内の形態素抽出結果を格納す
るバッファ領域をクリアにする段階(a)、それぞれm
a ,mb 文字からなる2つの日本語の入力文a,bが与
えられた場合に、入力文aをPE(i,j)(i,j|
i>j)のローカルメモリに、入力文bをPE(i,
j)(i,j|i<j)のローカルメモリにブロードキ
ャストする段階(b)、入力文a,bが格納されている
PEをPE(i,j)とすると、各PEが所有するPE
アドレス(i,j)を用いて、入力文aのj+1番目の
文字aj+1 からi番目の文字ai までの文字列をPE
(i,j)(i,j|i>j)の全てのPEで並列に抽
出し、これを単語辞書を検索する部分文字列aj+1,i
し、また、入力文bのi+1番目の文字bi+1 からj番
目の文字bj までの文字列をPE(i,j)(i,j|
i>j)の全てのPEで並列に抽出し、これを単語辞書
を検索する部分文字列bi+1,j とする段階(c)、上記
(c)の段階で、PE(i,j)(i,j|i≠j)で
抽出された部分文字列aj+1,i と部分文字列bi+1,j
をキーワードとして、ローカルメモリに格納されている
単語辞書を並列に検索し、単語辞書の中にキーワードが
存在した場合には、これらのキーワードが入力文aまた
はbの形態素であることを示すフラグと、これらのキー
ワードに対応する辞書情報をそれぞれのPE内のローカ
ルメモリのバッファ領域に格納する段階(d)、を備え
たものである。
【0009】本願第2の発明に係わる並列形態素抽出方
法は、キーワードにより検索することができる単語辞書
をデータ量が均等になるように2つに分割し、それぞれ
PE(i,j)(i,j|i>j)とPE(i,j)
(i,j|i<j)のローカルメモリ毎に同一に格納
し、ローカルメモリ内の形態素抽出結果を格納するバッ
ファ領域をクリアにする段階(a)、ma 文字からなる
1つの日本語の入力文aが与えられた場合に、aを全て
のPEのローカルメモリにブロードキャストする段階
(b)、各PEが所有するPEアドレス(i,j)を用
いて、入力文aが格納されているPE(i,j)(i,
j|i>j)においては、aのj+1番目の文字aj+1
からi番目の文字ai までの文字列を並列に抽出し、こ
れを単語辞書を検索する部分文字列aj+1,i とし、ま
た、PE(i,j)(i,j|i<j)においては、a
のi+1番目の文字ai+1 からj番目の文字aj までの
文字列を並列に抽出し、これを単語辞書を検索する部分
文字列ai+1,j とする段階(c)、上記(c)の段階
で、PE(i,j)(i,j|i≠j)で抽出された部
分文字列aj+1,i と部分文字列ai+1,j とをキーワード
として、ローカルメモリに格納されている単語辞書を並
列に検索し、単語辞書の中にキーワードが存在した場合
には、そのキーワードが入力文aの形態素であることを
示すフラグと、そのキーワードに対応する辞書情報と
を、それぞれのPE内のローカルメモリのバッファ領域
に格納する段階(d)、を備えたものである。
【0010】本願第3の発明に係わる並列データ処理装
置は、マルチポートメモリをアクセスするためのポート
を各要素プロセッサに1つずつ設け、マルチポートメモ
リのポート数に等しい数の要素プロセッサの各ポートと
マルチポートメモリとをそれぞれ接続し、各要素プロセ
ッサが指定したアドレスにより、各要素プロセッサが独
立にマルチポートメモリをアクセスする構成としたもの
である。
【0011】本願第4の発明に係わる並列形態素抽出方
法は、本願第3の発明の並列データ処理装置を用い、キ
ーワードにより検索することができる単語辞書を全ての
マルチポートメモリに同一に格納し、ローカルメモリ内
の形態素抽出結果を格納するバッファ領域をクリアにす
る段階(a)、ma 文字からなる1つの日本語の入力文
aが与えられた場合に、入力文aをPE(i,j)
(i,j|i>j)のローカルメモリにブロードキャス
トする段階(b)、入力文aが格納されているPEをP
E(i,j)とすると、各PEが所有するPEアドレス
(i,j)を用いて、入力文aのj+1番目の文字a
j+1 からi番目の文字ai までの文字列をPE(i,
j)(i,j|i>j)の全てのPEで並列に抽出し、
これを単語辞書を検索する部分文字列aj+1,i とする段
階(c)、上記(c)の段階で、PE(i,j)(i,
j|i≠j)で抽出された部分文字列aj+1,i をキーワ
ードとして、このキーワードに対応するマルチポートメ
モリのアドレスを生成する段階(d)、上記(d)の段
階で生成されたマルチポートメモリのアドレスにより、
このマルチポートメモリに格納されている単語辞書を全
てのPEについて並列に検索し、単語辞書の中にキーワ
ードが存在した場合には、そのキーワードが入力文aの
形態素であることを示すフラグと、このキーワードに対
応する検索結果の辞書情報とを、それぞれのPE内のロ
ーカルメモリのバッファ領域に格納する段階(e)、を
備えたものである。
【0012】本願第5の発明に係わる並列形態素抽出方
法は、本願第3の発明の並列データ処理装置を用い、キ
ーワードにより検索することができる単語辞書を全ての
マルチポートメモリに同一に格納し、ローカルメモリ内
の形態素抽出結果を格納するバッファ領域をクリアにす
る段階(a)、それぞれma ,mb 文字からなる2つの
日本語の入力文a,bが与えられた場合に、入力文aを
PE(i,j)(i,j|i>j)のローカルメモリ
に、入力文bをPE(i,j)(i,j|i<j)のロ
ーカルメモリにブロードキャストする段階(b)、入力
文a,bが格納されているPEをPE(i,j)とする
と、各PEが所有するPEアドレス(i,j)を用い
て、入力文aのj+1番目の文字aj+1 からi番目の文
字ai までの文字列をPE(i,j)(i,j|i>
j)の全てのPEで並列に抽出し、これを単語辞書を検
索する部分文字列aj+1,i とし、また、入力文bのi+
1番目の文字bi+1 からj番目の文字bj までの文字列
をPE(i,j)(i,j|i>j)の全てのPEで並
列に抽出し、これを単語辞書を検索する部分文字列b
i+1,j とする段階(c)、上記(c)の段階で、PE
(i,j)(i,j|i≠j)で抽出された部分文字列
j+1,i と部分文字列bi+1,j とをキーワードとして、
これらのキーワードに対応するマルチポートメモリのア
ドレスを生成する段階(d)、上記(d)の段階で生成
されたマルチポートメモリのアドレスにより、このマル
チポートメモリに格納されている単語辞書を全てのPE
について並列に検索し、単語辞書の中にキーワードが存
在した場合には、そのキーワードが入力文aまたは入力
文bの形態素であることを示すフラグと、これらのキー
ワードに対応する検索結果の辞書情報とを、それぞれの
PE内のローカルメモリのバッファ領域に格納する段階
(e)、を備えたものである。
【0013】
【作用】本願第1の発明においては、2つの入力文に対
して、それぞれm(m+1)2通りある部分文字列と単
語辞書のキーワードとの照合を1回の操作で実行するこ
とができる。
【0014】また、本願第2の発明においては、1つの
入力文に対して、m(m+1)2通りある部分文字列と
単語辞書のキーワードとの照合を1回の操作で実行する
ことができ、且つ、単語辞書を格納するローカルメモリ
の容量を1/2に節約することができる。
【0015】また、本願第3の発明においては、全要素
プロセッサで共通に使用するデータをマルチポートメモ
リに格納することができ、格納したデータをマルチポー
トメモリのポートの数だけ各PEが同時に読み出すこと
ができる。
【0016】また、本願第4の発明においては、2次元
アドレスにより対応づけできる要素プロセッサ(PE)
を多数接続した本願第3の発明に係わる並列データ処理
装置において、1つの入力文に対してm(m+1)/2
通りある部分文字列と単語辞書のキーワードとの照合を
1回の操作で実行することができる。
【0017】さらに、本願第5発明においては、2次元
アドレスにより対応づけできる要素プロセッサ(PE)
を多数接続した本願第3の発明に係わる並列データ処理
装置において、2つの入力文に対して、それぞれm(m
+1)/2通りある部分文字列と単語辞書のキーワード
との照合を1回の操作で実行することができる。
【0018】
【実施例】
実施例1.以下、この発明の一実施例を図面について説
明する。図1〜図3は、要素プロセッサ(PE)を4×
4個2次元格子状に配置した並列データ処理装置におけ
るこの発明の並列形態素抽出方法の実施例1を説明する
ための図である。図1〜図3において、10,11はそ
れぞれ文字数mが3のときの入力文a,b、12は各P
E毎に付されるPEアドレス、13はPE内のローカル
メモリ、14は全ての単語に対する単語辞書で、全ての
PEに同様に格納される。15は形態素抽出結果を格納
するためのバッファ領域、16はPEのアドレスを基に
生成された入力文aの部分文字列aj+1,i 、17は同様
にPEのアドレスを基に生成された入力文bの部分文字
列bi+1,j 、18はフラグで、aまたはbの部分文字列
をキーワードとして単語辞書を検索した結果、そのキー
ワードが辞書の中に存在したことを示す。
【0019】次に2つの入力文の形態素抽出を同時に実
行する場合の処理について、図1〜図3を用いて説明す
る。なお、図1は後述する処理ステップ(a),(b)
を、図2は処理ステップ(c)を、図3は処理ステップ
(d)を示す。ステップ(a)では、キーワードにより
検索することができる単語辞書14を、全てのPEのロ
ーカルメモリに同一に格納すると共に、ローカルメモリ
内の形態素抽出結果を格納するバッファ領域15をクリ
アにする。この単語辞書14は、後述するステップ
(d)の辞書検索時に単語辞書のキーワードを順を追っ
て逐次的に検索しなくても済むように、ハッシング(h
ashing)技法により検索できる構成としておく。
次のステップ(b)では、3文字からなる2つの日本語
の入力文a,bが与えられた場合に、入力文aを(i,
j|i>j)を満たすPE(i,j)のローカルメモリ
13に、入力文bを(i,j|i<j)を満たすPE
(i、j)のローカルメモリにそれぞれブロードキャス
トする。
【0020】次のステップ(c)では、各PEが所有す
るPEアドレス(i,j)を用いて、入力文aのj+1
番目の文字aj+1 からi番目の文字ai までの文字列
を、(i,j|i>j)を満たす全てのPEで並列に1
回の操作で抽出し、これを単語辞書を検索する部分文字
列aj+1,i とする。また、入力文bのi+1番目の文字
i+1 からj番目の文字bj までの文字列を、(i,j
|i>j)を満たす全てのPEで並列に1回の操作で抽
出し、これを単語辞書を検索する部分文字列bi+1,j
する。次のステップ(c)では、部分文字列aj+1,i
i+1,j をキーワードとして単語辞書を1回の操作によ
り全てのPEで並列に検索する。このとき、ステップ
(a)で示したハッシュ化された単語辞書を検索できる
ように、キーワードからハッシュ値を計算し、それを検
索アドレスとする。そして、単語辞書の中にキーワード
が存在した場合には、そのキーワードが入力文aまたは
bの形態素であることを示すフラグ18(論理「1」)
と、そのキーワードに対応する辞書情報9とを、それぞ
れのPE内のローカルメモリのバッファ領域に格納す
る。図1〜図3に示す実施例1では、部分文字列a1,
2,3 が入力文aの、部分文字列b1,2,3 が入力文
bの形態素として抽出される。
【0021】実施例2.図4〜図6は、この発明の並列
形態素抽出方法の実施例2を説明するための図であり、
上記実施例1では2つの入力文の形態素抽出を同時に実
行する場合を示したが、この実施例2では単語辞書をデ
ータ量が均等になるように2つに分割することにより、
格納するローカルメモリの容量を1/2に節約し、1つ
の入力文の形態素抽出を実行する。図4〜図6におい
て、図1〜図3と同一符号は同一又は相当部分を示し、
19は2つに分割した一方の単語辞書1/2 、20は同じ
く2つに分割したもう一方の単語辞書2/2 、21は部分
文字列aj+1,i 、22は部分文字列ai+1,j である。な
お、図4は後述する処理ステップ(a),(b)を、図
5は処理ステップ(c)を、図6は処理ステップ(d)
を示す。
【0022】ステップ(a)では、キーワードにより検
索することができる単語辞書を、データ量が均等になる
ように、単語辞書1/2 ,単語辞書2/2 のように2つに分
割し、 それぞれPE(i,j)(i,j|i>j)と、
PE(i,j)(i,j|i<j)のローカルメモリ1
3毎に同一に格納すると共に、ローカルメモリ内の形態
素抽出結果を格納するバッファ領域15をクリアにす
る。上記実施例1と同様に、この単語辞書は、ステップ
(d)の辞書検索時に単語辞書のキーワードを順を追っ
て逐次的に検索しなくても済むように、ハッシング技法
により検索できる構成とする。次のステップ(b)で
は、3文字からなる1つの日本語の入力文aが与えられ
た場合に、入力文aを全てのPEのローカルメモリにブ
ロードキャストする。
【0023】次のステップ(c)では、各PEが所有す
るPEアドレス(i,j)を用いて、入力文aが格納さ
れているPE(i,j)(i,J|i>j)において
は、入力文aのj+1番目の文字aj+1 からi番目の文
字aj までの文字列を1回の操作で並列に抽出し、これ
を単語辞書1/2 を検索する部分文字列aj+1,i とする。
また、PE(i,j)(i,J|i<j)においては、
入力文aのi+1番目の文字ai+1 からj番目の文字a
j までの文字列を1回の操作で並列に抽出し、これを単
語辞書2/2 を検索する部分文字列ai+1,j とする。
【0024】次のステップ(d)では、部分文字列a
j+1,i ,部分文字列ai+1,j をキーワードとして、単語
辞書1/2 および単語辞書2/2 を1回の操作で並列に検索
する。このとき、上述のステップ(a)で示したハッシ
ュ化された単語辞書を検索できるように、キーワードか
らハッシュ値を計算し、それを検索アドレスとする。そ
して、単語辞書の中にキーワードが存在した場合には、
そのキーワードが入力文aの形態素であることを示すフ
ラグ18(論理「1」)と、そのキーワードに対応する
辞書情報9とを、それぞれのPE内のローカルメモリの
バッファ領域に格納する。実施例2では、部分文字列a
1,2,3 が入力文a形態素として抽出される。
【0025】実施例3.図7〜図9は、この発明の実施
例3を説明するための図であり、各図において、図1〜
図6と同一符号は同一又は相当部分を示し、30はそれ
ぞれ8ポートのマルチポートメモリで、PEのマルチポ
ートメモリ接続用ポート31が接続され、このポート3
1を使用して各ポート独立にマルチポートメモリ30に
メモリアクセスが行えるようになっており、このポート
31には、メモリに位置を指定するアドレス信号線、デ
ータ信号線、制御信号線が含まれる。32はキーワード
に対応する検索結果の辞書情報である。図7に示すこの
発明の並列データ処理装置は、例えば、マルチポートメ
モリ30をアクセスするためのポートを、1つずつ設け
た要素プロセッサ(PE)1を4×4個2次元格子状に
配置し、2つのマルチポートメモリ30の各8ポートメ
モリに、全ての要素プロセッサ1のポートをそれぞれ接
続し、各要素プロセッサ1が指定したアドレスにより、
各要素プロセッサが独立してマルチポートメモリ30を
アクセスすることができるように構成したものである。
【0026】次に、1つの入力文の形態素抽出を実行す
る場合の処理について、図7〜図9のPE(1,0)、PE
(2,0)、PE(3,0)、PE(2,1)、PE(3,1)、PE(3,2) に着
目し順を追って説明する。なお、図7は後述する処理ス
テップ(a),(b)を、図8は処理ステップ(c)
を、図9は処理ステップ(d),(e)を示す。ステッ
プ(a)では、キーワード8により検索することができ
る単語辞書14を全て2つのマルチポートメモリ30に
同一に格納すると共に、ローカルメモリ13内の形態素
抽出結果を格納するバッファ領域15をクリアにする。
この単語辞書14は、後述するステップ(d)及び
(e)の辞書検索時に単語辞書14のキーワード8を順
を追って逐次的に検索しなくても済むように、ハッシン
グ技法により検索できる構成としておく。次のステップ
(b)では、3文字からなる1つの日本語の入力文aが
与えられた場合に、制御プロセッサ3から、(i,j|
i>j)を満たす全てのPE(i,j)のローカルメモ
リに入力文aをブロードキャストする。
【0027】次のステップ(c)では、各PEが所有す
るPEアドレス(i,j)を用いて、入力文aのj+1
番目の文字aj+1 からi番目の文字ai までの文字列
を、(i,j|i>j)を満たす全てのPE(i,j)
で並列に1回の操作で抽出し、これを単語辞書14を検
索する部分文字列aj+1,i とする。次のステップ(d)
では、部分文字列aj+1,i をキーワード8として、この
キーワード8に対応するマルチポートメモリ30のアド
レスを生成する。このとき、上述のステップ(a)で示
したハッシュ化された単語辞書を検索できるように、キ
ーワードからハッシュ値を計算し、それをマルチポート
メモリ30の各ポート31に与えるアドレスとする。次
のステップ(e)では、このアドレスを各PE毎にマル
チポートメモリ30のポート31に同時に送出し、この
マルチポートメモリ30に格納されている単語辞書14
を全てのPEについて並列に検索する。そして、単語辞
書14の中にキーワード8が存在した場合には、そのキ
ーワード8が入力文aの形態素であることを示すフラグ
18(論理「1」)と、そのキーワード8に対応する検
索結果の辞書情報32とを、それぞれのPE内のローカ
ルメモリ13のバッファ領域15に格納する。このよう
にPE(1,0)、PE(2,0)、PE(3,0)、PE(2,1)、PE(3,
1)、PE(3,2)に着目した場合、部分文字列a1 、a2
3 が入力文aの形態素として抽出され、これらに対応す
る検索結果の辞書情報32として、それぞれA1 、A23
がローカルメモリ13のバッファ領域15に格納され
る。
【0028】次に、2つの入力文の形態素抽出を同時に
実行する場合の処理について、PE(1,0)、PE(2,0)、P
E(3,0)、PE(2,1)、PE(3,1)、PE(3,2)、PE(0,1)、P
E(0,2)、PE(1,2)、PE(0,3) PE(1,3) PE(2,3) に
着目し順を追って説明する。ステップ(a)では、キー
ワード8により検索することができる単語辞書14を全
て(2つ)のマルチポートメモリ30に同一に格納する
と共に、ローカルメモリ13内の形態素抽出結果を格納
するバッファ領域15をクリアにする。この単語辞書1
4は、後述するステップ(d)及び(e)の辞書検索時
に単語辞書14のキーワード8を順を追って逐次的に検
索しなくても済むように、ハッシング技法により検索で
きる構成としておく。次のステップ(b)では、それぞ
れ3文字からなる2つの日本語の入力文a,bが与えら
れた場合に、制御プロセッサ3から、(i,j|i>
j)を満たす全てのPE(i,j)のローカルメモリに
入力文aを、(i,j|i<j)を満たす全てのPE
(i,j)のローカルメモリに入力文bを、それぞれブ
ロードキャストする。
【0029】次のステップ(c)では、各PEが所有す
るPEアドレス(i,j)を用いて、入力文aのj+1
番目の文字aj+1 からi番目の文字ai までの文字列
を、(i,j|i>j)を満たす全てのPE(i,j)
で並列に1回の操作で抽出し、これを単語辞書14を検
索する部分文字列aj+1,i とする。また、入力文bのi
+1番目の文字bi+1 からj番目の文字bj までの文字
列を、(i,j|i>j)を満たす全てのPE(i,
j)で並列に1回の操作で抽出し、これを単語辞書14
を検索する部分文字列bi+1,j とする。次のステップ
(d)では、抽出された部分文字列aj+1,i 、bi+1,j
をキーワード8として、これらのキーワード8に対応す
るマルチポートメモリ30のアドレスを生成する。この
とき、上述のステップ(a)で示したハッシュ化された
単語辞書を検索できるように、キーワードからハッシュ
値を計算し、それをマルチポートメモリ30の各ポート
31に与えるアドレスとする。次のステップ(e)で
は、このアドレスを各PE毎にマルチポートメモリ30
のポート31に同時に送出し、マルチポートメモリ30
に格納されている単語辞書14を全てのPEについて並
列に検索する。そして、単語辞書14の中にキーワード
8が存在した場合には、そのキーワード8が入力文aま
たは入力文bの形態素であることを示すフラグ18(論
理「1」)と、そのキーワード8に対応する検索結果の
辞書情報32とを、それぞれのPE内のローカルメモリ
13のバッファ領域15に格納する。このようにして、
部分文字列a1 、a23 が入力文aの形態素として抽
出され、これらに対応する辞書情報として、それぞれA
1 、A23がローカルメモリ13のバッファ領域15に格
納される。また、部分文字列b23 、b3 が入力文b
の形態素として抽出され、これらに対応する辞書情報と
して、それぞれB23、B3 がローカルメモリ13のバッ
ファ領域15に格納される。
【0030】上記実施例1〜3では、4×4個の要素プ
ロセッサから構成される並列データ処理装置及びそれに
おける並列形態素抽出方法を説明したが、物理的に2次
元構成の並列データ処理装置でなくとも、2次元アドレ
スにより対応づけできる要素プロセッサから構成される
並列データ処理装置であれば良い。
【0031】上記実施例1〜3では、3文字の入力文の
形態素抽出方法を説明したが、入力文は、任意のm文字
で良い。
【0032】上記実施例3では、8ポートメモリを使用
した例を示したが、2以上の任意の数のポートを持つマ
ルチポートメモリを使用した並列データ処理装置であれ
ば、実施することができる。
【0033】
【発明の効果】以上のように、本願第1の発明の並列形
態素抽出方法では、ローカルメモリを有し2次元アドレ
スにより対応づけできる要素プロセッサ(PE)を多数
接続した並列データ処理装置において、2つの入力文に
対して、それぞれm(m+1)/2通りある部分文字列
と単語辞書のキーワードとの照合を、1回の操作で実行
することができ、日本語の入力文の中に存在する可能性
のある全単語、すなわち形態素を抽出する処理を高速に
実行できるという効果がある。
【0034】また、本願第2の発明の並列形態素抽出方
法では、単語辞書を2つに分割してローカルメモリに格
納するようにしたので、1つの入力文に対して、それぞ
れm(m+1)/2通りある部分文字列と単語辞書のキ
ーワードとの照合を1回で実行できると共に単語辞書を
格納するローカルメモリの容量を1/2に節約して、形
態素を抽出する処理を高速に実行できるという効果があ
る。
【0035】また、本願第3の発明の並列データ処理装
置では、全要素プロセッサで共通に使用するデータをマ
ルチポートメモリに格納し、マルチポートメモリのポー
ト数だけ各要素プロセッサが同時にメモリアクセスでき
るため、全要素プロセッサで共通に使用するデータを各
要素プロセッサのローカルメモリに同一に持つ場合と比
べ、メモリ容量がマルチポートの数だけ削減でき、デー
タのアクセス速度は変わらないという効果がある。
【0036】また、本願第4の発明の並列形態素抽出方
法では、2次元アドレスにより対応づけできる要素プロ
セッサを多数接続した本願第3の発明に係わる並列デー
タ処理装置において、1つの入力文に対してそれぞれm
(m+1)/2通りある部分文字列と単語辞書のキーワ
ードとの照合を1回の操作で実行することができ、メモ
リ容量を削減しながら形態素を抽出する処理を高速に実
行できるという効果がある。
【0037】さらに、本願第5の発明の並列形態素抽出
方法では、2次元アドレスにより対応づけできる要素プ
ロセッサを多数接続した本願第3の発明に係わる並列デ
ータ処理装置において、同時に2つの入力文に対してそ
れぞれm(m+1)/2通りある部分文字列と単語辞書
のキーワードとの照合を1回の操作で実行することがで
き、メモリ容量を削減しながら形態素を抽出する処理を
高速に実行できるという効果がある。
【図面の簡単な説明】
【図1】この発明の並列形態素抽出方法の実施例1を説
明するための図である。
【図2】この発明の並列形態素抽出方法の実施例1を説
明するための図である。
【図3】この発明の並列形態素抽出方法の実施例1を説
明するための図である。
【図4】この発明の並列形態素抽出方法の実施例2を説
明するための図である。
【図5】この発明の並列形態素抽出方法の実施例2を説
明するための図である。
【図6】この発明の並列形態素抽出方法の実施例2を説
明するための図である。
【図7】この発明の並列データ処理装置および並列形態
素抽出方法の実施例3を説明するための図である。
【図8】この発明の並列データ処理装置および並列形態
素抽出方法の実施例3を説明するための図である。
【図9】この発明の並列データ処理装置および並列形態
素抽出方法の実施例3を説明するための図である。
【図10】従来の並列データ処理装置における並列形態
素抽出方法を説明するための図である。
【符号の説明】 1 要素プロセッサ(PE) 8 キーワード 9 辞書情報 10 入力文a 11 入力文b 12 PEアドレス 13 ローカルメモリ 14,19,20 単語辞書 15 バッファ領域 16,21 部分文字列aj+1,i 17 部分文字列bi+1,j 18 フラグ 22 部分文字列ai+1,j 30 マルチポートメモリ 31 ポート 32 検索結果の辞書情報
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成4年9月2日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】請求項4
【補正方法】変更
【補正内容】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0013
【補正方法】変更
【補正内容】
【0013】
【作用】本願第1の発明においては、2つの入力文に対
して、それぞれm(m+1)2通りある部分文字列と
単語辞書のキーワードとの照合を1回の操作で実行する
ことができる。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0014
【補正方法】変更
【補正内容】
【0014】また、本願第2の発明においては、1つの
入力文に対して、m(m+1)2通りある部分文字列
と単語辞書のキーワードとの照合を1回の操作で実行す
ることができ、且つ、単語辞書を格納するローカルメモ
リの容量を1/2に節約することができる。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0023
【補正方法】変更
【補正内容】
【0023】次のステップ(c)では、各PEが所有す
るPEアドレス(i,j)を用いて、入力文aが格納さ
れているPE(i,j)(i,|i>j)において
は、入力文aのj+1番目の文字aj+1 からi番目の文
字aj までの文字列を1回の操作で並列に抽出し、これ
を単語辞書1/2 を検索する部分文字列aj+1,i とする。
また、PE(i,j)(i,|i<j)においては、
入力文aのi+1番目の文字ai+1 からj番目の文字a
j までの文字列を1回の操作で並列に抽出し、これを単
語辞書2/2 を検索する部分文字列ai+1,j とする。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 ローカルメモリを有し、2次元アドレス
    によって対応づけできる要素プロセッサ(以下、PEと
    も言う)(i,j)を多数接続した並列データ処理装置
    における入力文の形態素抽出(日本語入力文の中に存在
    する可能性のある全単語の抽出)を行う並列形態素抽出
    方法において、 キーワードにより検索することができる単語辞書を全て
    のPEのローカルメモリに同一に格納し、ローカルメモ
    リ内の形態素抽出結果を格納するバッファ領域をクリア
    にする段階(a)、 それぞれma ,mb 文字からなる2つの日本語の入力文
    a,bが与えられた場合に、入力文aをPE(i,j)
    (i,j|i>j)のローカルメモリに、入力文bをP
    E(i,j)(i,j|i<j)のローカルメモリにブ
    ロードキャストする段階(b)、 入力文a,bが格納されているPEをPE(i,j)と
    すると、各PEが所有するPEアドレス(i,j)を用
    いて、入力文aのj+1番目の文字aj+1 からi番目の
    文字ai までの文字列をPE(i,j)(i,j|i>
    j)の全てのPEで並列に抽出し、これを単語辞書を検
    索する部分文字列aj+1,i とし、また、入力文bのi+
    1番目の文字bi+1 からj番目の文字bj までの文字列
    をPE(i,j)(i,j|i>j)の全てのPEで並
    列に抽出し、これを単語辞書を検索する部分文字列b
    i+1,j とする段階(c)、 上記(c)の段階で、PE(i,j)(i,j|i≠
    j)で抽出された部分文字列aj+1,i と部分文字列b
    i+1,j とをキーワードとして、ローカルメモリに格納さ
    れている単語辞書を並列に検索し、単語辞書の中にキー
    ワードが存在した場合には、これらキーワードが入力文
    aまたはbの形態素であることを示すフラグと、これら
    のキーワードに対応する辞書情報をそれぞれのPE内の
    ローカルメモリのバッファ領域に格納する段階(d)、 を備えたことを特徴とする並列形態素抽出方法。
  2. 【請求項2】 ローカルメモリを有し、2次元アドレス
    によって対応づけできるPE(i,j)を多数接続した
    並列データ処理装置における入力文の形態素抽出を行う
    並列形態素抽出方法において、 キーワードにより検索することができる単語辞書をデー
    タ量が均等になるように2つに分割し、それぞれPE
    (i,j)(i,j|i>j)とPE(i,j)(i,
    j|i<j)のローカルメモリ毎に同一に格納し、ロー
    カルメモリ内の形態素抽出結果を格納するバッファ領域
    をクリアにする段階(a)、 ma 文字からなる1つの日本語の入力文aが与えられた
    場合に、入力文aを全てのPEのローカルメモリにブロ
    ードキャストする段階(b)、 各PEが所有するPEアドレス(i,j)を用いて、入
    力文aが格納されているPE(i,j)(i,j|i>
    j)においては、入力文aのj+1番目の文字aj+1
    らi番目の文字ai までの文字列を並列に抽出し、これ
    を単語辞書を検索する部分文字列aj+1,i とし、また、
    PE(i,j)(i,j|i<j)においては、入力文
    aのi+1番目の文字ai+1 からj番目の文字aj まで
    の文字列を並列に抽出し、これを単語辞書を検索する部
    分文字列ai+1,j とする段階(c)、 上記(c)の段階で、PE(i,j)(i,j|i≠
    j)で抽出された部分文字列aj+1,i と部分文字列a
    i+1,j とをキーワードとして、ローカルメモリに格納さ
    れている単語辞書を並列に検索し、単語辞書の中にキー
    ワードが存在した場合には、そのキーワードが入力文a
    の形態素であることを示すフラグと、そのキーワードに
    対応する辞書情報とを、それぞれのPE内のローカルメ
    モリのバッファ領域に格納する段階(d)、 を備えたことを特徴とする並列形態素抽出方法。
  3. 【請求項3】 ローカルメモリを有する要素プロセッサ
    を多数接続した並列データ処理装置において、 マルチポートメモリをアクセスするためのポートを各要
    素プロセッサに1つずつ設け、マルチポートメモリのポ
    ート数に等しい数の要素プロセッサの各ポートとマルチ
    ポートメモリとをそれぞれ接続し、各要素プロセッサが
    指定したアドレスにより、各要素プロセッサが独立にマ
    ルチポートメモリをアクセスする構成としたことを特徴
    とする並列データ処理装置。
  4. 【請求項4】 各要素プロセッサがPE(i,j)のご
    とく2次元アドレスによって対応づけできる請求項第3
    項記載の並列データ処理装置を用いる並列形態素抽出方
    法において、 キーワードにより検索することができる単語辞書を全て
    のマルチポートメモリに同一に格納し、ローカルメモリ
    内の形態素抽出結果を格納するバッファ領域をクリアに
    する段階(a)、 ma 文字からなる1つの日本語の入力文aが与えられた
    場合に、までの文字列aをPE(i,j)(i,j|i
    >j)のローカルメモリにブロードキャストする段階
    (b)、 入力文aが格納されているPEをPE(i,j)とする
    と、各PEが所有するPEアドレス(i,j)を用い
    て、aのj+1番目の文字aj+1 からi番目の文字ai
    までの文字列をPE(i,j)(i,j|i>j)の全
    てのPEで並列に抽出し、これを単語辞書を検索する部
    分文字列aj+1,i とする段階(c)、 上記(c)の段階で、PE(i,j)(i,j|i≠
    j)で抽出された部分文字列aj+1,i をキーワードとし
    て、このキーワードに対応するマルチポートメモリのア
    ドレスを生成する段階(d)、 上記(d)の段階で生成されたマルチポートメモリのア
    ドレスにより、このマルチポートメモリに格納されてい
    る単語辞書を全てのPEについて並列に検索し、単語辞
    書の中にキーワードが存在した場合には、そのキーワー
    ドが入力文aの形態素であることを示すフラグと、この
    キーワードに対応する検索結果の辞書情報とを、それぞ
    れのPE内のローカルメモリのバッファ領域に格納する
    段階(e)、 を備えたことを特徴とする並列形態素抽出方法。
  5. 【請求項5】 各要素プロセッサがPE(i,j)のご
    とく2次元アドレスによって対応づけできる請求項第3
    項記載の並列データ処理装置を用いる並列形態素抽出方
    法において、 キーワードにより検索することができる単語辞書を全て
    のマルチポートメモリに同一に格納し、ローカルメモリ
    内の形態素抽出結果を格納するバッファ領域をクリアに
    する段階(a)、 それぞれma ,mb 文字からなる2つの日本語の入力文
    a,bが与えられた場合に、入力文aをPE(i,j)
    (i,j|i>j)のローカルメモリに、入力文bをP
    E(i,j)(i,j|i<j)のローカルメモリにブ
    ロードキャストする段階(b)、 入力文a,bが格納されているPEをPE(i,j)と
    すると、各PEが所有するPEアドレス(i,j)を用
    いて、入力文aのj+1番目の文字aj+1 からi番目の
    文字ai までの文字列をPE(i,j)(i,j|i>
    j)の全てのPEで並列に抽出し、これを単語辞書を検
    索する部分文字列aj+1,i とし、また、入力文bのi+
    1番目の文字bi+1 からj番目の文字bj までの文字列
    をPE(i,j)(i,j|i>j)の全てのPEで並
    列に抽出し、これを単語辞書を検索する部分文字列b
    i+1,j とする段階(c)、 上記(c)の段階で、PE(i,j)(i,j|i≠
    j)で抽出された部分文字列aj+1,i と部分文字列b
    i+1,j とをキーワードとして、これらのキーワードに対
    応するマルチポートメモリのアドレスを生成する段階
    (d)、 上記(d)の段階で生成されたマルチポートメモリのア
    ドレスにより、このマルチポートメモリに格納されてい
    る単語辞書を全てのPEについて並列に検索し、単語辞
    書の中にキーワードが存在した場合には、そのキーワー
    ドが入力文aまたは入力文bの形態素であることを示す
    フラグと、これらのキーワードに対応する検索結果の辞
    書情報とを、それぞれのPE内のローカルメモリのバッ
    ファ領域に格納する段階(e)、 を備えたことを特徴とする並列形態素抽出方法。
JP4115717A 1992-03-11 1992-05-08 並列データ処理装置および並列形態素抽出方法 Pending JPH05314169A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4115717A JPH05314169A (ja) 1992-03-11 1992-05-08 並列データ処理装置および並列形態素抽出方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP4-52709 1992-03-11
JP5270992 1992-03-11
JP4115717A JPH05314169A (ja) 1992-03-11 1992-05-08 並列データ処理装置および並列形態素抽出方法

Publications (1)

Publication Number Publication Date
JPH05314169A true JPH05314169A (ja) 1993-11-26

Family

ID=26393357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4115717A Pending JPH05314169A (ja) 1992-03-11 1992-05-08 並列データ処理装置および並列形態素抽出方法

Country Status (1)

Country Link
JP (1) JPH05314169A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013069175A (ja) * 2011-09-22 2013-04-18 Nec Corp キーワード抽出システム、キーワード抽出方法及びプログラム
JP2014235625A (ja) * 2013-06-04 2014-12-15 日本電気株式会社 文字列抽出装置、方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013069175A (ja) * 2011-09-22 2013-04-18 Nec Corp キーワード抽出システム、キーワード抽出方法及びプログラム
JP2014235625A (ja) * 2013-06-04 2014-12-15 日本電気株式会社 文字列抽出装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
US5995962A (en) Sort system for merging database entries
US6131092A (en) System and method for identifying matches of query patterns to document text in a document textbase
US7440947B2 (en) System and method for identifying query-relevant keywords in documents with latent semantic analysis
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
JP3077765B2 (ja) 語彙辞書の検索範囲を削減するシステム及び方法
JP2741835B2 (ja) 入力テキスト・ストリングをワードで区切る方法
JPH0724036B2 (ja) データベース処理方法
JPH09134369A (ja) ラティスをキーとした検索を行う辞書検索装置および方法
JPH10501912A (ja) Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法
CN100524293C (zh) 一种从双语句对获取词对译文的方法及系统
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
CN105404677A (zh) 一种基于树形结构的检索方法
Burkowski A hardware hashing scheme in the design of a multiterm string comparator
JPH05314169A (ja) 並列データ処理装置および並列形態素抽出方法
JPS617936A (ja) 情報検索方式
JPH06348757A (ja) 文書検索装置および方法
JP4888677B2 (ja) 文書検索システム
Sadiq et al. Space-efficient computation of parallel approximate string matching: MU Sadiq, MM Yousaf
JPH09305622A (ja) 文書検索機能を有するデータベース管理方法およびシステム
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JP2002132789A (ja) 文書検索方法
Hollaar A list merging processor for inverted file information retrieval systems.
Iwai et al. A method of augmenting bilingual terminology by taking advantage of the conceptual systematicity of terminologies
JPH09212523A (ja) 全文検索方法
JP2006106896A (ja) データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法