JPH0836571A - 文書処理装置 - Google Patents
文書処理装置Info
- Publication number
- JPH0836571A JPH0836571A JP6169250A JP16925094A JPH0836571A JP H0836571 A JPH0836571 A JP H0836571A JP 6169250 A JP6169250 A JP 6169250A JP 16925094 A JP16925094 A JP 16925094A JP H0836571 A JPH0836571 A JP H0836571A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- kana
- kanji
- conversion
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
一度変換処理を行っている漢字仮名交じりの文字列を、
漢字と仮名のすべての組み合わせを登録した大規模な辞
書を用いることなく、変換することを目的とする。 【構成】 漢字仮名交じりの変換対象文字列1を文字列
を漢字仮名変換2によってすべて仮名である中間仮名文
字列群3に変換し、それを仮名漢字変換4によって、変
換することによって、一次候補文字列群5を生成する。
前記一次候補文字列群と変換対象文字列1を照合処理6
によって照合し、条件を満たしているものを最終候補文
字列群7とする。
Description
ワードプロセッサ、コンピュータ、携帯情報端末など、
手書き文字入力および手書き文字認識機能をもち、直接
漢字を入力することが可能である日本語文処理装置、あ
るいは、一般のコンピュータおよびワードプロセッサな
どで、一度入力した日本語テキストを事後に再度変換で
きる機能をもつ文書処理装置に関する。
するワードプロセッサ、コンピュータなどが数多く存在
する。図9はペン入力機能を有する携帯情報端末の一例
である。表示部Aは表示一体型のタブレットである。該
表示部Aに入力手段である入力用ペンBにより入力する
ことができる。図10は入力中の画面の例である。記入
枠CにペンBで入力することにより、ペン入力された漢
字、仮名、英数字等を認識し、認識された文字が入力行
Dに表示される。入力枠はどの枠(C1〜4)に書いて
もよく、認識された文字は記入枠から消えるため、空い
ている枠に順次入力していけばよく、書いた順に入力行
に表示される。
ら漢字に変換を行っていたが、ペン入力方式において
は、漢字も直接入力が可能である。しかし、漢字を混在
させた入力や、いったん変換済みの仮名漢字文節のテキ
ストを変換することはできない。漢字の前後の仮名部分
ごとに個別に変換を行う場合、例えば「公えん」と入力
して、ひらがな部の「公えん」の部分を変換した場合、
変換単位が短く、直前の文字「公」となんら関係のない
ものも候補としてしまうため、変換精度が非常に悪い。
名の混在する見出し語ごとに対応する漢字を格納した専
用の辞書を用いることにより、入力させた仮名漢字まじ
り文字列を変換する方式が開示されている。この方式に
おいて用いられる辞書の例を図8に示す。仮名漢字変換
辞書の見出し語に漢字をも含んだ文字列も記述した辞書
を用いている。しかし、「日本語」に対する見出し語に
関して、すべての漢字と仮名の組み合わせを考えると
「にほんご」「日ほんご」「に本ご」「にほん語」「日
本ご」「日ほん語」「に本語」の7つが必要になる。変
換結果である漢字列の文字数をRとすると、見出し語数
は2R−1となり膨大な量に膨れ上がる。このためかな
り大規模な辞書を用意することが必要となり、検索効
率、メンテナンスの負荷などの問題があった。
式として一般的にはキーボードによる入力方式がある。
仮名漢字まじりの日本語文を入力する手段として、キー
ボードより入力文をひらがなで入力した後に、[変換]
キーなどの操作により、ひらがな文字列を漢字に変換す
るといった方式があった。
ることが可能であるため、例えば「公園」という文字列
を入力したい場合、直接前述の記入枠Cに「公園」と入
力し、認識させることができるが、実際は「園」という
漢字は画数も多く、ユーザとしては「公えん」と入力し
て、変換要求を行うと、「公園」と変換してくれると非
常に都合がよい。また、一般の入力方式による機器にお
いても、既に入力済みの日本語のテキストの一部もしく
は全部を再度、漢字に変換したいケースがありうる。O
CR(Optical Character Reader)から入力された文章の
一部に再変換を行いたい場合も考えられる。そのために
は従来の仮名のみからなる文字列を変換の対象とするの
ではなく、漢字も含んだ、仮名漢字まじりの文字列から
変換を行えるようにする必要がある。
まじりの文字列を変換する方式として、従来の仮名漢字
変換辞書の見出し語に漢字をも含んだ文字列も記述した
辞書を用いる手法が考案されている。しかし、この方式
では辞書の項目数が非常に大きくなってしまう。また、
上記の例でも明らかなように、可能なすべての組み合わ
せのうち、ほとんど参照されることのないであろう見出
し語(例えば「に本ご」など)を多く含んだ辞書になっ
てしまう一方、使われる可能性のある見出し語に限定し
て登録するとなると、その境界線を引く作業は容易では
ない。そのような辞書の作成には多大な負荷がかかるう
えに、さらに辞書の更新や利用者による単語登録などに
おいて、他の辞書と一貫性を持たせるためには多大な労
力を要することが考えられる。
必要なく、漢字を含んだ漢字を含んだ文字列を一度、ひ
らがなのみの文字列に変換するという手法を用いること
により、仮名漢字まじりの文字列を変換する。
て、変換対象文字列である仮名漢字まじり文字列を漢字
を含まない文字列に変換し、中間仮名文字列を得る漢字
仮名変換手段と、前記中間仮名文字列を仮名漢字まじり
の文字列に変換し、一次候補文字列を得る仮名漢字変換
手段、および、前記一次候補文字列と変換対象文字列を
照合する。
中で漢字の連続する部分文字列はそのまま一次候補文字
列に保存されており、かつ、変換対象文字列中で仮名の
連続する部分文字列は一次候補文字列中で空でない任意
の文字列に対応している場合に最終候補文字列とする照
合手段を備える。
よって、入力された変換対象の、漢字と仮名文字が混在
する文字列を仮名のみの文字列に変換する。ここで、中
間仮名文字列が得られる。仮名漢字変換手段によって、
仮名漢字まじりの文字列に変換する。ここで、一次候補
文字列が得られる。
によって、変換対象文字列と各一次候補文字列を照合
し、一次候補文字列のうち、変換対象文字列に含まれる
漢字が正しい位置に、同じ順序で現れるもの以外を排除
し、残ったものを正解の候補として、利用者に出力表示
する。
である。変換対象文字列1を仮名漢字変換2の処理によ
り、中間仮名文字列群3が得られる。この中間仮名文字
列群3に仮名漢字変換4による処理を加えると、一次候
補文字列群5が得られる。この一次候補文字列群5と変
換対象文字列1を照合処理6により照合すると最終候補
文字列群7が得られるという流れである。
す。8はタブレット、9は文字認識回路、10は変換対
象文字列バッファ、11は漢字仮名変換回路、12は漢
字仮名変換用回路、13は中間仮名文字列バッファ、1
4は仮名漢字変換回路、15は仮名漢字変換用辞書、1
6は一次候補文字列バッファ、17は文字列照合手段、
18は最終候補文字列バッファ、19は表示回路、20
は表示装置、21は変換過程制御回路を表している。
て詳細に説明する。タブレット8は図9のAに示したよ
うに、通常は表示部を兼ねている。図9の記入部Cにペ
ンBを用いて文字を入力する。入力された文字は文字認
識回路9によって、認識される。文字認識回路9では、
入力された文字のイメージ情報や、入力される入力のス
トローク情報(筆使い)などの情報を用いて、入力され
た文字を認識する。認識された文字列は、まず変換対象
文字列バッファ10に格納される。この変換対象文字列
バッファの内容は、漢字仮名変換用辞書12を利用し
て、漢字仮名変換回路11により、仮名のみを含む文字
列に変換され、中間文字列バッファ13に格納される。
た、仮名のみを含む文字列は、仮名漢字変換用辞書15
を利用する仮名漢字変換回路14によって、漢字まじり
の文字列に変換され、一次候補文字列バッファ16に格
納される。変換対象文字列バッファ10の内容と、一次
候補文字列バッファ16の内容は、照合回路17によっ
て比較され、この両バッファの内容が矛盾しないと判断
された場合にのみ、一次候補文字列バッファ16の内容
が、最終候補文字列バッファ18にコピーされる。
た文字列は、変換結果の候補として表示回路20を通じ
て表示装置21に表示され、利用者に出力表示され、利
用者が承認すると確定され、そうでなければ、次の一次
候補文字列または中間仮名文字列を得て、同様の処理を
繰り返す。
レット8より入力され、文字認識回路9によって認識さ
れた変換命令として、変換過程制御回路21に渡され、
この変換過程制御回路21は図3に示すフローチャート
にもとづいて処理を進める。図3、図4を用いて、ひと
つの実施例を詳細に説明する。ここで実際の例として、
「公えん」という文字列をタブレット8より入力し、文
字認識回路9によって認識され、変換をすることとす
る。
列をSとする。Sは変換対象文字列バッファである。つ
まりここでSには“公えん”が格納される。ステップ2
3で最終候補文字列バッファであるRRに空集合を代入
してクリアする。ステップ24において、Sを漢字仮名
変換する。つまり“公えん”に対して漢字仮名変換を行
う。その結果の文字列の集合をIIとして格納する。こ
こではIIとして“こうえん”“きみえん”が格納され
る。これが中間仮名文字列バッファである。ステップ2
5において、IIより要素の文字列をひとつ取り出して
Iとする。つまりIとして“こうえん”が取り出され
る。もし取り出す要素がなければステップ30の処理を
行う。ステップ26において、Iに仮名漢字変換を適用
し、その結果の文字列とCCとする。例ではCCとし
て、“公園”“公演”“後援”“講演”“高遠”が得ら
れる。これが一次候補文字列バッファである。ステップ
27でCCの要素の一つを取り出してCとする。もし、
要素がなければステップ25に戻る。ステップ25にお
いて、IIの全要素を取り出したら、ステップ30にす
すむ。ステップ28において、CとSを照合する。Cと
Sが矛盾するならば、ステップ27に戻る。矛盾しない
ならばステップ29において、集合RR(最終候補文字
列バッファ)の要素としてCを加えたのち、ステップ2
7に戻る。つまりステップ27、28でCCの要素であ
る“公園”“公演”“後援”“講演”“高遠”において
照合が行われ、Sに矛盾しない“公園”“公演”が最終
候補文字列バッファRRに格納され、ステップ25にも
どり、Iとして“きみえん”を取り出し、ステップ26
において仮名漢字変換を適用する。しかし、“きみえ
ん”に仮名漢字変換を適用すると候補が得られないた
め、またステップ25にもどる。ステップ25ではII
にはもう取り出すIがないため、ステップ30に処理の
処理を行うことになる。ステップ30では、RRより要
素の文字列をひとつ取り出してRとする。要素がなけれ
ばステップ31で候補なしとして終了する。ステップ3
2においてRを利用者に表示する。ステップ33におい
て、利用者がRを採用すれば終了し、そうでない場合は
ステップ30に戻る。つまり候補として“公園”“公
演”が表示されたわけである。
字列Sを引き数としてとり、仮名のみに変換した候補の
文字列の集合を返す関数である。また、ステップ26の
仮名漢字変換は仮名のみの文字列Iを引き数としてと
り、漢字まじりの文字列に変換した文字列の集合を返す
関数である。
行い、矛盾があるかどうかを判断するわけであるが、そ
の判断方法について、図5を用いて詳しく説明する。前
記の例における、変換対象文字列Sが「公えん」の場合
に、一次候補文字列群CCとして「“公園”“公演”
“後援”“講演”“高遠”」が得られたとする。“公
園”“公園”は漢字『公』が変換対象文字列Sと同じ位
置に現れ、かつ、仮名『えん』の部分がなんらかの漢字
に置き換えられているのに対し、“後援”“講演”“高
遠”については、漢字『公』が現れていないので、明ら
かに利用者が入力しようとした文字列と異なることがわ
かる。その結果、“公園”“公演”は最終候補文字列と
して残り、“後援”“講演”“高遠”については却下さ
れることになる。
列として「ひ行き」を変換したとする。Sに「ひ行き」
が格納され、漢字仮名変換が行われる。漢字仮名変換の
結果として、中間仮名文字列としてIに“ひこうき”
“ひぎょうき”“ひいき”(下線部は『行』が変換され
た部分)が得られる。これらの中間仮名文字列のそれぞ
れについて、仮名漢字変換を行うことにより、一次候補
文字列Cとして、“飛行機”“非行期”“罷業期”“贔
屓”等が得られる。このうち、元の変換対象文字列に含
まれていた漢字『行』を含まない“罷業期”“贔屓”等
を排除し、残った“飛行機”“非行期”は、「ひ行き」
の『ひ』『き』に相当する部分になんらかの漢字が現れ
ているため、これらを正解の候補として提示することに
なる。
を最終候補として残すか否かを決定するには、以下の方
法による。変換対象文字列を、仮名のみが連続する部分
文字列と、漢字のみが連続する部分文字列に分割する。
・,n;nは自然数)はその部分文字列、&は文字列の連結
演算子を表し、K(X)は文字列Xが漢字のみを含むこ
とを表す述語、NK(X)は文字列Xが仮名のみを含む
ことを表す述語とする。このような分割は必ず一意に定
まる。
字列であった場合、S=[ひ行き]であり、S1は仮名
が連続する部分文字列である[ひ]である、S2は漢字
が連続する部分文字列[行]、S3は同様に、仮名が連
続する部分文字列である[き]である。また変換対象文
字列Sが[公えん]であった場合は、S1は漢字が連続
する部分文字列である[公]、S2が仮名が連続する部
分文字列である[えん]となる。
条件を満たす部分文字列に分割できるならば、この文字
列は変換対象文字列と矛盾しておらず、最終候補文字列
として残すものとする。このような分割が可能でない一
次候補文字列は却下し、最終候補文字列から排除する。
数) ただし Tiは空でない任意の文字列[iが奇数のと
き] かつ Ti=SiかつK(Ti)[iが偶数のとき] または Ti=SiかつK(Ti)[iが奇数のと
き] かつ Tiは空でない任意の文字列[iが偶数のとき] ここで、Tは一次候補文字列、Ti(i=1,2,・・・,n;n
は自然数)はその部分文字列を表す。
であれば、S1=「公」、S2=「えん」と一意に分割
できる(n=2)。これに対する一次候補文字列が「公
園」であれば、T1=「公」=S1、T2=「園」と分
割でき、「公演」でも同様であるが、「講演」「後援」
等は、T1=S1、かつT2が空でないような分割は存
在しないため、最終候補文字列から排除される。
ると、S1=「ひ」、S2=「行」、S3=「き」と分
割できる。これに対する一次候補文字列を「飛行機」と
すると、T1=「飛」、T2=「行」、T3=「機」と
分割でき、「非行期」においても同様に分割できるの
で、最終候補文字列として残るが、「罷業期」や「贔
屓」についてはT1とT3が空でなく、かつ、T2=S
2となるような分割は存在しない。
字列中で漢字の連続する部分文字列はそのまま一次候補
文字列に保存されており、かつ、変換対象文字列中で仮
名の連続する部分文字列は一次候補文字列中で空でない
任意の文字列に対応しているならば、その時に限り、そ
の一次候補文字列を最終候補文字列として残すことにな
る。
名漢字変換をおこなうときに、すべての候補をバッファ
に格納して一次候補文字列を生成し、照合手段によっ
て、最終候補文字列を提示していた。以下の実施例は大
きなバッファを要しない実施例である。図7をもとに説
明する。
字列をSとする。次にステップ23で、Sに漢字仮名変
換を適用し、その結果をIとする。ステップ24でも
し、Iが空文字列であれば、ステップ25で候補なしと
して終了する。Iが空文字列でない場合には、ステップ
26において、Iに仮名漢字変換を適用して、その結果
をCとする。ステップ27において、もし空文字列であ
ればステップ23に戻り、次の候補をIとし、処理を続
ける。空文字列でない場合は、ステップ28で、S(変
換対象文字列バッファ)とC(一次候補文字列バッフ
ァ)の照合を行う。もし、ここで照合により矛盾するな
らば、またステップ23にもどり次候補をIとし、処理
をつづける。矛盾しなかった場合は、ステップ29にお
いて、C(一次候補文字列バッファ)の内容をR(最終
候補文字列バッファ)に代入し、ステップ30で利用者
に提示する。ステップ31において、利用者が採用すれ
ばステップ32で終了し、採用せずに、次候補を要求し
た場合はステップ23にもどる。以上のようにバックト
ラックを繰り返して候補を生成することも可能である。
においては、直接漢字を入力できるため部分的に漢字を
含んだ文字列を入力できる。しかし、たとえば入力の繁
雑さ、あるいは困難さのために文字列の一部を仮名で入
力したものを変換したい場合や、また、入力済みの日本
語文を再度変換したい場合において、入力された文字列
に含まれる漢字とその位置の情報を有効に利用すること
により、不要な候補を排除することができ、変換の精度
を高めることができる。
するための辞書はテキスト音声合成やソーティング用の
読みの生成などに汎用的に利用でき、特別な専用辞書を
用意する必要はない。仮名漢字変換においては従来の技
術をそのまま利用できる。このように、汎用的なソフト
ウェア技術を組み合わせたものであるため、個々の要素
技術をそれぞれ置き換えることが容易である。
る。
る。
ある。
文字列群、一次候補文字列群、最終候補文字列群の例を
示した図である。
条件の例を示した図である。
る。
である。
例である。
Claims (2)
- 【請求項1】 仮名漢字まじり文字列を漢字を含まない
文字列に変換する漢字仮名変換手段と、前記手段により
得られた漢字を含まない文字列を仮名漢字まじりの文字
列に変換する仮名漢字変換手段と、前記変換対象の仮名
漢字まじり文字列と、変換処理によって得られた仮名漢
字まじり文字列を照合する照合手段を備えることを特徴
とする文書処理装置。 - 【請求項2】 変換対象文字列である仮名漢字まじり文
字列を漢字を含まない文字列に変換し、中間仮名文字列
を得る漢字仮名変換手段と、前記中間仮名文字列を仮名
漢字まじりの文字列に変換し、一次候補文字列を得る仮
名漢字変換手段、および、前記一次候補文字列と変換対
象文字列を照合し、変換対象文字列中で漢字の連続する
部分文字列はそのまま一次候補文字列に保存されてお
り、かつ、変換対象文字列中で仮名の連続する部分文字
列は一次候補文字列中で空でない任意の文字列に対応し
ている場合に最終候補文字列とする照合手段を備えるこ
とを特徴とする文書処理装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP16925094A JP3552750B2 (ja) | 1994-07-21 | 1994-07-21 | 文書処理装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP16925094A JP3552750B2 (ja) | 1994-07-21 | 1994-07-21 | 文書処理装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH0836571A true JPH0836571A (ja) | 1996-02-06 |
| JP3552750B2 JP3552750B2 (ja) | 2004-08-11 |
Family
ID=15883034
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP16925094A Expired - Fee Related JP3552750B2 (ja) | 1994-07-21 | 1994-07-21 | 文書処理装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3552750B2 (ja) |
-
1994
- 1994-07-21 JP JP16925094A patent/JP3552750B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP3552750B2 (ja) | 2004-08-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
| JPH0576067B2 (ja) | ||
| JP3552750B2 (ja) | 文書処理装置 | |
| JPH08115330A (ja) | 類似文書検索方法および装置 | |
| JP3233803B2 (ja) | 難読漢字検索装置 | |
| JPH0944521A (ja) | インデックス作成装置および文書検索装置 | |
| JP2765712B2 (ja) | 文字認識入力装置 | |
| JP3164086B2 (ja) | 手書き文字フォント作成方法及びそれを適用した手書き文字情報処理装置 | |
| JPH0677252B2 (ja) | 和文データ入力処理装置 | |
| JPH06290299A (ja) | 文字入力装置 | |
| JP3118880B2 (ja) | 日本語文章処理装置 | |
| JPH0736884A (ja) | 文字認識入力装置 | |
| JPH1027173A (ja) | 人名変換装置 | |
| JPH10307823A (ja) | 翻訳方法、翻訳装置及び翻訳プログラムを格納した 記録媒体 | |
| JP2708923B2 (ja) | かな漢字変換装置 | |
| JPS61292774A (ja) | 手書き入力ワ−ドプロセツサ | |
| Cojocaru et al. | On technology of free access to the characteristic cultural heritage in the form of old printed texts | |
| JPH04372047A (ja) | 仮名漢字変換装置 | |
| JPH0574867B2 (ja) | ||
| JPH06266768A (ja) | 電子ブックおよび電子ブックプレーヤにおける検索方式 | |
| JPH01128157A (ja) | 日本語文書作成装置 | |
| JPH07200574A (ja) | 仮名漢字変換方法 | |
| JPH09153116A (ja) | 文字列予測方法 | |
| JPH06223055A (ja) | 文章入力装置 | |
| JPH09282316A (ja) | 漢字仮名変換装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040420 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040427 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080514 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090514 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100514 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110514 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110514 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120514 Year of fee payment: 8 |
|
| LAPS | Cancellation because of no payment of annual fees |