JPS58115529A - 辞書検索方式 - Google Patents
辞書検索方式Info
- Publication number
- JPS58115529A JPS58115529A JP56213630A JP21363081A JPS58115529A JP S58115529 A JPS58115529 A JP S58115529A JP 56213630 A JP56213630 A JP 56213630A JP 21363081 A JP21363081 A JP 21363081A JP S58115529 A JPS58115529 A JP S58115529A
- Authority
- JP
- Japan
- Prior art keywords
- characters
- kana
- dictionary
- heading
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の分野〕
本発明は日本記ワードプロセッサに用いられるカナ漢字
変換に関し、特にそのための辞書の構成及び検索の方式
に関する。
変換に関し、特にそのための辞書の構成及び検索の方式
に関する。
従来、カナ漢字変換において単語辞書を検索する際には
、キーと々る入力カナ文字列と見出しが完全に一致する
場合に、有効が単語データとして取り■していた。この
ため、入力文字列の一部分が変化すると、同じデータを
得ることは不可症であった。つまり、一つの即飴で読み
方のいろいろあるものは、その読み方それぞれの見出し
を持つ必要があった。例えば、「東京」は「トウキ!つ
」「トウキ、−J、rトーキ、−」のように例通りかの
読み方が存在するため、それぞれの読みに対応した見出
しが必要である。しかし、このような単語すべてについ
て、読み方の変化をすべて揃えるということは、困難で
あり、現実には−通りの見出しのみ存在するものがほと
んどである。従って、辞書に存在する読み方以外の読み
方で検索すると、正しいデータを得ることができなかっ
た。
、キーと々る入力カナ文字列と見出しが完全に一致する
場合に、有効が単語データとして取り■していた。この
ため、入力文字列の一部分が変化すると、同じデータを
得ることは不可症であった。つまり、一つの即飴で読み
方のいろいろあるものは、その読み方それぞれの見出し
を持つ必要があった。例えば、「東京」は「トウキ!つ
」「トウキ、−J、rトーキ、−」のように例通りかの
読み方が存在するため、それぞれの読みに対応した見出
しが必要である。しかし、このような単語すべてについ
て、読み方の変化をすべて揃えるということは、困難で
あり、現実には−通りの見出しのみ存在するものがほと
んどである。従って、辞書に存在する読み方以外の読み
方で検索すると、正しいデータを得ることができなかっ
た。
本発明は、このように読み方に多少の変化が許される単
語について、見出しの数を増やすことなく、どの読み方
で検索しても正しいデータを得ることを目的とするもの
である。
語について、見出しの数を増やすことなく、どの読み方
で検索しても正しいデータを得ることを目的とするもの
である。
本発明の第1の実施例においては単語辞11VCおいて
見出しt−構成する文字列の中で他の文字に変化しても
全体としては同じ単語を表わすような文字に印を付加す
る(例「ト簀ウキ、簀つ」)。検索の際はまず最初に従
来通り、入力文字列と完全に一致する単語をサーチする
。このとき候補単語が見つかれば、検索は終了し、見つ
からなかった場合は、印の付いた文字を比較しない方法
でサーチを行う。
見出しt−構成する文字列の中で他の文字に変化しても
全体としては同じ単語を表わすような文字に印を付加す
る(例「ト簀ウキ、簀つ」)。検索の際はまず最初に従
来通り、入力文字列と完全に一致する単語をサーチする
。このとき候補単語が見つかれば、検索は終了し、見つ
からなかった場合は、印の付いた文字を比較しない方法
でサーチを行う。
また本発明のM2の実施例においては皐飴辞曹において
見出しを構成する文字列の中で他の文字に変化する可能
性のある文字を、記号に置きかえて別に、変化する候補
文字のテーブルを持つ。検索の際に、入力文字列と見出
しを比較すると色は、まず上記記号の部分を除いて検索
し、その結果一致した見出しの中に記号が含まれている
場合は、上記テーブルをお照し、その記号に対応する文
字の中に入力文字列の該当文字と一致するものがあるか
どうかを調べ、あれば、文字が一致したものと同じに扱
う。
見出しを構成する文字列の中で他の文字に変化する可能
性のある文字を、記号に置きかえて別に、変化する候補
文字のテーブルを持つ。検索の際に、入力文字列と見出
しを比較すると色は、まず上記記号の部分を除いて検索
し、その結果一致した見出しの中に記号が含まれている
場合は、上記テーブルをお照し、その記号に対応する文
字の中に入力文字列の該当文字と一致するものがあるか
どうかを調べ、あれば、文字が一致したものと同じに扱
う。
第】図は本発明の第1の実施例を示すプロ、り図であり
、KBは入力キーボード、DICTは辞書、データパ、
7ア、DPLYはディスプレイ出力部である。辞書DI
CTの内容は第1表に示す如くカナ見出しにおいて変化
する可能性のあるカナ文字には印(*)が付されている
。
、KBは入力キーボード、DICTは辞書、データパ、
7ア、DPLYはディスプレイ出力部である。辞書DI
CTの内容は第1表に示す如くカナ見出しにおいて変化
する可能性のあるカナ文字には印(*)が付されている
。
第1図において、例えばKBから「トーキ、−」という
キーの文字列を入力したとする。5RCHFiまずDI
CTの見出しの中から「トーキ、−」を探すが、これは
存在していないのでFFがセットされ、2回目の検索に
入る。2回目の検索ではr)ICTの見出しのうち*印
の付いている文字は比較対象から外しく又は強制的に一
致しているものとみなし)、他の部分のみを比較する。
キーの文字列を入力したとする。5RCHFiまずDI
CTの見出しの中から「トーキ、−」を探すが、これは
存在していないのでFFがセットされ、2回目の検索に
入る。2回目の検索ではr)ICTの見出しのうち*印
の付いている文字は比較対象から外しく又は強制的に一
致しているものとみなし)、他の部分のみを比較する。
この例でrilト*ウキ冒*つ」という見出しと「ト、
キ、町が一致するので、そ、h−に対応する漢字コード
1東京」が候補としてDPLYに表示される。
キ、町が一致するので、そ、h−に対応する漢字コード
1東京」が候補としてDPLYに表示される。
一方、入力キー文字列として「トッキ冒」を与えたとす
ると、「特許」が該当するので、これを第1候補として
DPLYに表示する。
ると、「特許」が該当するので、これを第1候補として
DPLYに表示する。
また候補文字を複数出力できるシステムにおいては、1
回目の検索でずばり該当するものが有ってもさらに第2
検索で*印の文字を無視して検索をするようにしてもよ
い。但し、第1検紫で見付けた漢字を第】候補、第2検
索で見付けた漢字を第2候補とするようPRTYで優先
順位を制叔する。
回目の検索でずばり該当するものが有ってもさらに第2
検索で*印の文字を無視して検索をするようにしてもよ
い。但し、第1検紫で見付けた漢字を第】候補、第2検
索で見付けた漢字を第2候補とするようPRTYで優先
順位を制叔する。
上記の例「トッキ、」では「特許」と「東京」とが表示
される。
される。
第2図は本発明の第2の実施例を示すプロ、り図であり
、第1図と同一の記号は同一のものを示す。第2図の辞
書DICT’は第2表に示す如く見出しが記入されてい
る。即ち質化し得るカナ文字位置は@、*、#等の符号
に置換されている。
、第1図と同一の記号は同一のものを示す。第2図の辞
書DICT’は第2表に示す如く見出しが記入されてい
る。即ち質化し得るカナ文字位置は@、*、#等の符号
に置換されている。
またテーブルTBLには第3表に示す如く上記各符号が
とり得るカナ文字が定義されている。
とり得るカナ文字が定義されている。
第2表
記3表
第3表において、NULは文字が無いことを童味する。
例えば入力キー文字列として「トウキ目つ」を与えた場
合、5RCI(’はまずDICTの各見出し中、牢印の
部分は比較対象から外して検索する0すると「ト*キ、
*」が*印を除くと一致することに彦る。そこでTBL
中の*印の項を引くと*とじては「つ」と「−」があり
得ることになり、入力キー文字列においてはいずれの*
該当位置も「つ」であるから、「東京」が正解であるこ
とが判る。同様に入力キー文字列として「トーキ、−」
。
合、5RCI(’はまずDICTの各見出し中、牢印の
部分は比較対象から外して検索する0すると「ト*キ、
*」が*印を除くと一致することに彦る。そこでTBL
中の*印の項を引くと*とじては「つ」と「−」があり
得ることになり、入力キー文字列においてはいずれの*
該当位置も「つ」であるから、「東京」が正解であるこ
とが判る。同様に入力キー文字列として「トーキ、−」
。
「トウキ、−」Xは「トーキ、つ」を与えた場合にも「
東京」が得られる。
東京」が得られる。
一方、入力キー文字列として「トッキ曹」を与えた場合
、符号文字を除外した検索では「ト*キョ*」と「ト#
キ冒」の双方が該当する。しかしTBLを引いてみると
、*の項には「ツ」も「N U Ljも存在t7ていな
いので、「ト*キ、*」は該当しかいことが判る。一方
TBLの#の項には「ツ」が存在するので、この場合は
「ト#キ、」即ち1%許」が正t’l:とじて得られる
。
、符号文字を除外した検索では「ト*キョ*」と「ト#
キ冒」の双方が該当する。しかしTBLを引いてみると
、*の項には「ツ」も「N U Ljも存在t7ていな
いので、「ト*キ、*」は該当しかいことが判る。一方
TBLの#の項には「ツ」が存在するので、この場合は
「ト#キ、」即ち1%許」が正t’l:とじて得られる
。
同様にして、「コンピュータ」、「コンピュータア」、
「コンピューター」のいずれの入カキ−に対しても「コ
ンピュータ」が出力される。
「コンピューター」のいずれの入カキ−に対しても「コ
ンピュータ」が出力される。
伺、本発明でいう漢字コードは狭し1意味の漢字ばかり
でなく、広く「単語」の意に解してよい。
でなく、広く「単語」の意に解してよい。
以上のような方式を用いると、辞書の見出し通りの入力
を行った場合には、従来通りに単語を得ることができ、
多少変化した形の入力を行った場合には、印の付いた文
字を比較しないサーチで候補単語を得ることができる。
を行った場合には、従来通りに単語を得ることができ、
多少変化した形の入力を行った場合には、印の付いた文
字を比較しないサーチで候補単語を得ることができる。
また、本発明の第1実施例は従来通りの辞書形式を使用
し、見出しに印を付加するだけで、比較的簡単に実覗す
ることができる。
し、見出しに印を付加するだけで、比較的簡単に実覗す
ることができる。
また本発明の第2実施例はTBLを用いることにより、
より正確な検索が可能となる。
より正確な検索が可能となる。
鯖1 (>’Iは本発明の第1実施例、第2図は同第2
実施例のブロック図であり、KBは人力キーボード部、
DICT、1)ICT’は辞書、5RCH,5RCH’
は見出し比t>部、DBUFはデータノくツファ。 DPLYはディスプレイ田力部、1’BLは符号テーブ
ルである。 代理人 弁理士 松 岡 宏盟部−殆 2.□−1V刀
実施例のブロック図であり、KBは人力キーボード部、
DICT、1)ICT’は辞書、5RCH,5RCH’
は見出し比t>部、DBUFはデータノくツファ。 DPLYはディスプレイ田力部、1’BLは符号テーブ
ルである。 代理人 弁理士 松 岡 宏盟部−殆 2.□−1V刀
Claims (2)
- (1) カナの見出しと、その見出しに対応した漢字
コードを持つカナ漢字変換用の辞書の検索において見出
しを構成する文字の中で必ずしも一致しなくてもよい文
字に印を付加しておき、検索入力カナ文字列と完全に一
致する漢字コードがない場合は、印を付加したカナ文字
の比較を行わないで検案することを特9とする辞書検案
方式。 - (2) カナの見出しと、その見出しに対応した漢字
コードを持つカナ漢字変換用の辞書の検索において、該
辞書の見出しを構成する文字の中で変化の可能性のある
文字を、特殊な符号に置き換えるとともに、tieかえ
九特殊符号に対応する候補文字を記憶したテーブルを設
は上記辞書を用いて上記特殊符号部分を除外した見出し
で検索し、該当する見出しについてはその特殊符号を上
記テーブルにより検索して入力文字との対応を確認する
ととを特徴とする辞書検索方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56213630A JPS58115529A (ja) | 1981-12-29 | 1981-12-29 | 辞書検索方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56213630A JPS58115529A (ja) | 1981-12-29 | 1981-12-29 | 辞書検索方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS58115529A true JPS58115529A (ja) | 1983-07-09 |
Family
ID=16642331
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP56213630A Pending JPS58115529A (ja) | 1981-12-29 | 1981-12-29 | 辞書検索方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS58115529A (ja) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59148922A (ja) * | 1983-02-15 | 1984-08-25 | Canon Inc | 文字処理装置 |
| JPS62251871A (ja) * | 1986-04-24 | 1987-11-02 | Ricoh Co Ltd | 仮名漢字変換処理装置 |
| JPH03161860A (ja) * | 1989-11-20 | 1991-07-11 | Sharp Corp | 文字処理装置 |
| JPH04156662A (ja) * | 1990-10-19 | 1992-05-29 | Sharp Corp | 文字処理装置 |
| JPH08249322A (ja) * | 1996-04-04 | 1996-09-27 | Sharp Corp | 文字処理装置 |
-
1981
- 1981-12-29 JP JP56213630A patent/JPS58115529A/ja active Pending
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS59148922A (ja) * | 1983-02-15 | 1984-08-25 | Canon Inc | 文字処理装置 |
| JPS62251871A (ja) * | 1986-04-24 | 1987-11-02 | Ricoh Co Ltd | 仮名漢字変換処理装置 |
| JPH03161860A (ja) * | 1989-11-20 | 1991-07-11 | Sharp Corp | 文字処理装置 |
| JPH04156662A (ja) * | 1990-10-19 | 1992-05-29 | Sharp Corp | 文字処理装置 |
| JPH08249322A (ja) * | 1996-04-04 | 1996-09-27 | Sharp Corp | 文字処理装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4773039A (en) | Information processing system for compaction and replacement of phrases | |
| US4833610A (en) | Morphological/phonetic method for ranking word similarities | |
| KR19980080220A (ko) | 언어 식별 장치, 언어 식별 방법 및 언어 식별의 프로그램을 기록한 기록매체 | |
| JPH0211934B2 (ja) | ||
| JPS58115529A (ja) | 辞書検索方式 | |
| Karimi et al. | Collapsed consonant and vowel models: New approaches for English-Persian transliteration and back-transliteration | |
| JPS63157262A (ja) | ワードの類似性をランク付けする方法 | |
| Daciuk | Treatment of unknown words | |
| Khan et al. | nameGist: a novel phonetic algorithm with bilingual support | |
| JPH03116375A (ja) | 情報検索装置 | |
| JPS6210763A (ja) | 仮名漢字変換処理装置 | |
| JP2621999B2 (ja) | 文書処理装置 | |
| JP3285149B2 (ja) | 外国語電子辞書検索方法及び装置 | |
| JP2821143B2 (ja) | 形態素分解装置 | |
| Dave et al. | Uast: Unicode aware sanskrit transliteration | |
| KR20010067827A (ko) | 다국어 한자 데이터 베이스 구조 | |
| JPH07121538A (ja) | スペルチェック装置 | |
| Harper | Dictionary problems in machine translation | |
| JPS5851381A (ja) | カナ漢字変換処理装置 | |
| JP3241854B2 (ja) | 単語スペル自動補正装置 | |
| JP3063332B2 (ja) | 推敲支援システム | |
| JPH06149791A (ja) | 漢字文章入力装置 | |
| JP2729342B2 (ja) | 仮名漢字変換方法および装置 | |
| JPS6198475A (ja) | 日本語文章入力装置 | |
| Yujian et al. | Semantic grammar and its application to machine translation |