JPS62274366A - 辞書検索装置 - Google Patents

辞書検索装置

Info

Publication number
JPS62274366A
JPS62274366A JP61117773A JP11777386A JPS62274366A JP S62274366 A JPS62274366 A JP S62274366A JP 61117773 A JP61117773 A JP 61117773A JP 11777386 A JP11777386 A JP 11777386A JP S62274366 A JPS62274366 A JP S62274366A
Authority
JP
Japan
Prior art keywords
word
character
nodal point
node
directory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61117773A
Other languages
English (en)
Inventor
Shinsuke Sakai
坂井 信輔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP61117773A priority Critical patent/JPS62274366A/ja
Publication of JPS62274366A publication Critical patent/JPS62274366A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 発明の詳細な説明 (産業上の利用分野) この発明は、自然言語解析のための辞書検索装置に関す
るものである。
(従来の技術) 従来、辞書に対する本構造のディレクトリにおいては、
木のひとつの節点は一つの文字を表わし、単語の左端か
ら共通の文字列を持つ複数の単語は、いくつかの共有す
る節点をもつ。例えば、造語成分「よう」、意志・推量
の助動詞「よう」、比況の助動詞「ようだ」・[よって
す]およびそれらの活用形(たとえば[ように」・「よ
うな」、[ようでし]など)は、2つの共通する節点[
よ]・「う」を持つようになっている([日本音響学会
音声研究会資料J 882−82649ページ〜654
ページ)。
(発明が解決しようとする問題点) ところが、例えば本構造のディレクトリを持つ辞書検索
装置を用いて最長一致法により[・・見ようによっては
・・・」という入力文字列の形態素解析をする場合を考
えると、「見」まで単語の同定が終わった時点で、次の
単語の候補となりうるちのには、前述の造語成分[よう
]、意志・推量の助動詞rよう]、比況の助動詞「よう
だ」の活用形「ように」なとも含まれるようになり、比
況の助動詞「ようだ」の活用形「ように」をまず単語候
補として、単語間の接続可能性を記述した表を参照し、
直前の単語と接続可能か判定する必要があった。しかも
、「ようです」・「ような]・「ようでし」などが、次
の単語候補とならないことを判定するためには、入力文
字列と、「ようです」・[ような]・[ようでし]など
との比較が必要であった。このことは、最長一致法で形
態解析を行なう場合にバックトラックの必要を増大させ
たり、文字の比較に要する処理時間の増加を招く原因と
なっていた。
本発明の目的はこの問題点を解決した辞書検索装置を提
供することにある。
(問題点を解決するための手段) 本発明は、単語を構成する各シンボルを節点とする本構
造のディレクトリをたどりながら単語を検索する辞書検
索装置において、少なくとも、直前に検索した単語の後
方接続カテゴリーを保持する状態記憶と、各分岐節点に
、前記状態記憶に保持された直前の単語の後方接続カテ
ゴリーから到達可能な後続する節点を選択する後続節点
選択手段と、後続する節点へのポインタ群とを有する本
構造のディレクトリ部を有することを特徴としている。
(作用) 本発明に於いては、木構造ディレクトリ上の各分岐節点
の有する後続節点選択部が、状態記憶に保持された直前
に検索した単語の後方接続カテゴリーを利用することに
より、その節点から到達可能な後続節点を限定する。こ
れによって、前方接続不可能なカテゴリーの単語候補を
先に採用してしまうことによるバックトラックや、木構
造ディレクトリのある節点から後続する節点へとたどっ
ていく際の入力中のシンボルと本構造ディレクトリの節
点のシンボルとの比較の回数を減らすことが可能となる
(実施例) 以下、第1図から第4図を用いて本発明の実施例につい
て説明する。第1図は本発明の辞書検索装置を用いた形
態素解析装置の一例を示す構成図である。第2図は本発
明による辞書検索装置の構成を示したものである。第3
図は第2図の本構造ディレクトリの節点の構成を示した
ものである。第4図は、第3図の後続節点選択部の機能
を、第2図の節点202の後続節点選択部を例にとって
表わしたものである。
入力テキスト記憶101は、入力テキストを保持する。
解析制御部102は、入力テキスト記憶101から部分
文字列を読みこみ、辞書検索装置103にその文字列を
わたすことにより辞書引きを行いながら、入力テキスト
の形態解析を進めて行く。
第2図において、検索文字列バッファ212には、解析
制御部102かられたされた文字列が保持される。状態
記憶211は、直前に検索された単語の後方接続カテゴ
リーを保持する。インデックス213は、各文字に対し
て、その文字で始る単語が木の根節点から1つの単語の
終端を表す節点間へのパスとなっているような本構造デ
ィレクトリへのポインタを保持する。
本構造ディレクトリ上の各節点は単語を構成している一
つの文字に対応し、ある節点から他のある節点へ向かう
枝はその二つの節点がある単語をあられすパス上にある
ことを示す。例えば、比況の助動詞「ようだ」の連体形
「ようなJは、節点201.202,206,208を
通るパスによって表されている。
本構造ディレクトリ上の各節点は、第3図に記述されて
いるように、その節点に対応する文字、後続節点選択部
、後続節点へのポインタを有する。
単語の終端を現す記号■を持つ節点には、その単語の単
語情報が後続する。
検索制御部210は検索文字列バッファ212中の最初
の文字から、インデックス213により適切な木構造デ
ィレクトリを得て、検索文字列バッファ212中の文字
を左から右へ1文字ずつたどりながら、検索文字列バッ
ファ212中の文字と木構造ディレクトリの節点に付随
している文字を比較して木構造ディレクトリの節点をた
どっていく。
単語の終端をあられす記号間にたどり着いたら、ある単
語が見つかったことになるわけである。
例えば「・・見ようによっては・・」という入力テキス
トを左から右に最長一致優先に形態素解析する場合を考
える。いま、「見」まで単語の同定が終わって、状態記
憶211には、第4図に見られるような22という単語
rJLJの後方接続カテゴリーが設之されているとする
。解析制御部102は、テキスト中の[見jまで同定さ
れているので、部分文字列「ようによっては」を辞書検
索装置103にわたすことにより辞書引きをおこなう。
わたされた文字列「ようによっては」は、辞書検索装置
の検索文字列バッファ212に保持される。検索制御部
210は、検索文字列「ようによっては」の最初の文字
[よ」からインデックス213により、節点201を根
節点とする本構造ディレクトリを得る。「よ」を伴う節
点201をたどって「う]を伴う節点202にたどりつ
いたとき、節点202に後続する可能性のある節点とし
ては、単語の終端をあられす記号間を伴う節点203、
文字「だ]を伴う節点204、文字[で]を伴う節点2
05、文字「な」を伴う節点206、文字[に]を伴う
節点207などであるが、現在の状態記憶中の後方接続
力デゴリーは22であるから、第4図に示されている節
点202の後続節点選択部の機能により、次に進むこと
が可能な節点として、単語の終端をあられす節点■すな
わち節点203のみが選択され、単語「よう」が入力テ
キスト中の現在の位置の単語候補となり、辞書検索装置
の出力として[ようJの単語情報が解析制御部102に
返される。この際、入力テキスト中の文字「に」と、本
構造ディレクトリの節点[だ]・「で」・「な」・「に
Jとの比較演算を行なう必要はない。こうして解析制御
部102は入力テキストの次の位置「に」にすすみ、解
析処理を進めていく。
一方、従来、最長の単語を優先して候補とする場合、こ
の、後続節点を直前の単語の後続カテゴリーからあらか
じめ限定してしまう機能がなければ、比況の助動詞「よ
うだ」の連用形[ように]がまず単語候補として選択さ
れてしまうので、本発明の辞書検索装置より多くの無駄
な計算ステップを踏まなければならない。なお、本発明
の辞書検索装置は漢字かな混じり文の形態素解析のみだ
けではなく、例えば音声認識装置の言語処理部にも用い
ることができる。
(発明の効果) このように、本発明によれば、辞書を検索する段階で限
定された候補単語のみを検索するので、前方接続不可能
なカテゴリーの単語候補を先に採用することによるバッ
クトラックや、無駄なシンボルとシンボルの比較の回数
を減らすことが可能となる。
【図面の簡単な説明】
第1図は本発明の辞書検索装置を用いた形態素解析装置
の一例を示す構成図である。第2図は本発明による辞書
検索装置の木構造ディレクトリの構成例を示す図、第3
図は第2図の本構造ディレクトリ節点の構成を示す図で
ある。第4図は、第2図の節点202の後続節点選択部
を例にとって後続節点選択部の機能を表わした図である
。 図中、101は入力テキスト記憶、102は解析制御部
、103は辞書検索装置、210は検索制御部、211
は状態記憶、212は検索文字列バッファ、213はイ
ンデックス、201,202,204,205,206
,207は木構造ディレクトリの節点、203,208
は、木構造ディレクトリのQ :X (【 襞笑 后 第4図

Claims (1)

  1. 【特許請求の範囲】 単語を構成する各シンボルを節点とする木構造のディレ
    クトリをたどりながら単語を検索する辞書検索装置にお
    いて、 (a)少なくとも、直前に検索した単語の後方接続カテ
    ゴリーを保持する状態記憶と、 (b)各分岐節点に、前記状態記憶に保持された直前の
    単語の後方接続カテゴリーから到達可能な後続する節点
    を選択する後続節点選択手段と、後続する節点へのポイ
    ンタ群とを有する木構造のディレクトリ部、 を有することを特徴とする辞書検索装置。
JP61117773A 1986-05-21 1986-05-21 辞書検索装置 Pending JPS62274366A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61117773A JPS62274366A (ja) 1986-05-21 1986-05-21 辞書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61117773A JPS62274366A (ja) 1986-05-21 1986-05-21 辞書検索装置

Publications (1)

Publication Number Publication Date
JPS62274366A true JPS62274366A (ja) 1987-11-28

Family

ID=14719967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61117773A Pending JPS62274366A (ja) 1986-05-21 1986-05-21 辞書検索装置

Country Status (1)

Country Link
JP (1) JPS62274366A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05290082A (ja) * 1992-03-23 1993-11-05 Internatl Business Mach Corp <Ibm> パターンに基づく翻訳方法及び翻訳装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05290082A (ja) * 1992-03-23 1993-11-05 Internatl Business Mach Corp <Ibm> パターンに基づく翻訳方法及び翻訳装置

Similar Documents

Publication Publication Date Title
JPH0689302A (ja) 辞書メモリ
JPS62274366A (ja) 辞書検索装置
JP2007334429A (ja) キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体
JP2595934B2 (ja) 仮名漢字変換処理装置
JPS588379A (ja) 仮名漢字変換方式
JP3353769B2 (ja) 文字認識装置、文字認識方法、文字認識プログラム記録媒体
JPS61190657A (ja) 日本語文字列認定方式
JPH0350669A (ja) 情報処理装置
JPH10254881A (ja) 機械翻訳装置
JPS59100939A (ja) 日本語入力装置
JPS6126172A (ja) カナ漢字変換方式
JPH04290158A (ja) 文書作成装置
JPS62282364A (ja) 文字列検索方式
JPS63138479A (ja) 文字認識装置
JPS63129465A (ja) 文理解支援装置
JPS59116835A (ja) 短縮入力機能付日本語入力装置
JPS62203276A (ja) 形態素解析装置
JPS61156464A (ja) 文書作成装置
JPH04279966A (ja) かな漢字変換装置における文節区切り学習情報検索方式
JPH0695330B2 (ja) 文書作成装置
JPH0392957A (ja) 仮名漢字変換装置
JPH04349565A (ja) かな漢字変換方法およびかな漢字変換装置
JPH03111965A (ja) 仮名漢字変換方法及び仮名漢字変換装置
JPS60140460A (ja) カナ漢字変換装置における短縮変換方式
JPS6316369A (ja) 日本語処理方式