JPS5882368A - カナ漢字変換処理方式 - Google Patents
カナ漢字変換処理方式Info
- Publication number
- JPS5882368A JPS5882368A JP56180581A JP18058181A JPS5882368A JP S5882368 A JPS5882368 A JP S5882368A JP 56180581 A JP56180581 A JP 56180581A JP 18058181 A JP18058181 A JP 18058181A JP S5882368 A JPS5882368 A JP S5882368A
- Authority
- JP
- Japan
- Prior art keywords
- kana
- processing method
- kanji
- input
- conversion processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は邦文ワードプロセッサ等におけるカナ漢字変換
処理方式に関し、特に文節区切り情報を与えるカナ漢字
変換処理方式における変換の正答率に向上させ、文書作
成作業の処理速度全向上させ得るカナ漢字変換処理方式
に関する。
処理方式に関し、特に文節区切り情報を与えるカナ漢字
変換処理方式における変換の正答率に向上させ、文書作
成作業の処理速度全向上させ得るカナ漢字変換処理方式
に関する。
カナ漢字変換(以下、単に「変換」ともいう。)処理方
式Vて関しては従来から種々の方式が提案されて来た。
式Vて関しては従来から種々の方式が提案されて来た。
例えば1−N HK技術研究」第25巻第5号(197
3)FCは、分かち書き単位で入力される入力文の文法
的なチェックを行うことにより同音異字語(以下、[同
音語−1という。)?減する処理を行った後、防用頻度
の一番高いものを出力する方式が開示されている。この
方式においては、入力文?構成する全ての文節(分かち
書き単位)中の自立語間に意味距離全定義し、同音語が
複数個存在する場合には、人力文節の各語間の前記意味
距離か最小となる語を変換の最有力41もぐ11とする
ことか揖案されている。
3)FCは、分かち書き単位で入力される入力文の文法
的なチェックを行うことにより同音異字語(以下、[同
音語−1という。)?減する処理を行った後、防用頻度
の一番高いものを出力する方式が開示されている。この
方式においては、入力文?構成する全ての文節(分かち
書き単位)中の自立語間に意味距離全定義し、同音語が
複数個存在する場合には、人力文節の各語間の前記意味
距離か最小となる語を変換の最有力41もぐ11とする
ことか揖案されている。
しかしなから、上記方式による場合trcは、入力文全
体で同音語’1411別を行うことにならざる7得ない
ので、処理時間か長くなるばかりでなく、最初の変換結
果が得られるまでに比較的長時間荷たされるという問題
があった。
体で同音語’1411別を行うことにならざる7得ない
ので、処理時間か長くなるばかりでなく、最初の変換結
果が得られるまでに比較的長時間荷たされるという問題
があった。
本発明は上A1・、事情に稀みてなされたもので、その
目的とするとこ乙は、従来のカナ漢字変換処理方式にお
けるト述の如き問題を解消し、処理時間を短縮し、オペ
レータに負相をかけず一意に決定可能なカナ漢字変換処
理方式全提供することにある。
目的とするとこ乙は、従来のカナ漢字変換処理方式にお
けるト述の如き問題を解消し、処理時間を短縮し、オペ
レータに負相をかけず一意に決定可能なカナ漢字変換処
理方式全提供することにある。
本発明の上記目的Ll、入力文を、自立語を中心とする
分かち書き単位に分解して仮名文字で人力し、これに対
応する漢字カナ混じり文を逐次得るカナ漢字変換処理方
式において、前記分かち書き単位ごとに決定された語の
青味情報を澄録し、引き続き入力された分かち書き単位
に対応する複数の同音語が発生した場合に、Wit記廟
味情報によって決定される使先順位に従って前記複数の
同音語の中から対応する漢字全出力し変換することを特
徴とするカナ漢字変換処理方式によって達成される。
分かち書き単位に分解して仮名文字で人力し、これに対
応する漢字カナ混じり文を逐次得るカナ漢字変換処理方
式において、前記分かち書き単位ごとに決定された語の
青味情報を澄録し、引き続き入力された分かち書き単位
に対応する複数の同音語が発生した場合に、Wit記廟
味情報によって決定される使先順位に従って前記複数の
同音語の中から対応する漢字全出力し変換することを特
徴とするカナ漢字変換処理方式によって達成される。
以下、本発明の実施例全図面に基づいてWe細に説明す
る。
る。
第1図は本発明の一実施例であるカナ漢字変換処理のブ
ロック図である。
ロック図である。
第1図において、■は入力前処理部、2は単語抽出部、
3は同音語判別部、4は出力制向I M、そしてδは変
換制御部である。
3は同音語判別部、4は出力制向I M、そしてδは変
換制御部である。
日本語文か仮名文で入力されると、以下の如き処理を経
て漢字カナ混、しり文として出力される。
て漢字カナ混、しり文として出力される。
入力前処理部1は、入力仮名文中の英数字2文節区切り
情報等を認識して変換対象となる仮名文字列全抽出し、
変* k+御部すの制御の下に単語抽出部2に、変換単
位どなる仮名文字列を沖す。単語抽出部2は前言ビ仮冬
文字列から、カナ全見出しとする単語辞書および該単語
辞書に付加さねている語の品詞情報9品胴′別の接続情
報を納めた辞書等を参照し、前記仮名文字列と辞書見出
しとの一致を試み、文法的に許容される単語列の酔補全
抽出する。同音語判別部3は、上記単語列の候補が複数
個存在する場合に、これらの候補から後述の判別方法に
従って最不力単語列全決定し、出力制御部4. Kより
漢字カナ混じり文として出力する。
情報等を認識して変換対象となる仮名文字列全抽出し、
変* k+御部すの制御の下に単語抽出部2に、変換単
位どなる仮名文字列を沖す。単語抽出部2は前言ビ仮冬
文字列から、カナ全見出しとする単語辞書および該単語
辞書に付加さねている語の品詞情報9品胴′別の接続情
報を納めた辞書等を参照し、前記仮名文字列と辞書見出
しとの一致を試み、文法的に許容される単語列の酔補全
抽出する。同音語判別部3は、上記単語列の候補が複数
個存在する場合に、これらの候補から後述の判別方法に
従って最不力単語列全決定し、出力制御部4. Kより
漢字カナ混じり文として出力する。
以下、同音語判別部法について詳細にd分明する。
第2図は同音語判別のステップを示すものであり、(1
)は逐次決定型単線意味順位付はステップ、(2)は頻
咽順位付はステップ、(3)は選択最有力候補の特定ス
テップである。
)は逐次決定型単線意味順位付はステップ、(2)は頻
咽順位付はステップ、(3)は選択最有力候補の特定ス
テップである。
(1)逐次決定型音吐順位付はステップは、各文節の抽
出同音候補それぞれの1文節意味W離1を計算しくこの
詳細については後述する。)、意味順位付けを行う。計
算した1文節意味距離」の最小値を有する候補が最有力
候補として特定される。世し、複数個の候補が最小値と
なった場合は特定されない。
出同音候補それぞれの1文節意味W離1を計算しくこの
詳細については後述する。)、意味順位付けを行う。計
算した1文節意味距離」の最小値を有する候補が最有力
候補として特定される。世し、複数個の候補が最小値と
なった場合は特定されない。
e)頻度順位付はステップは、各文節の抽出同音候補そ
れぞれの自立語の冶する「頻度値」の高い順r(並べ換
えを行い、「頻度値」の最高のものを最有力候補として
特定する。「頻度値iが最高値を示すものが初数個ある
ときは、これらの並びの初めのもの全選択する。
れぞれの自立語の冶する「頻度値」の高い順r(並べ換
えを行い、「頻度値」の最高のものを最有力候補として
特定する。「頻度値iが最高値を示すものが初数個ある
ときは、これらの並びの初めのもの全選択する。
(S)i択最有力候補の特定ステップは、01j記逐次
決定型意味順位付はステップa)で最有力候補が特定さ
れた場合はその候補を、該ステップ(1)で特定されな
かった場合は、前記頻度順位付はステップ(2)で特定
された候Mk、N択された最有力候補として決定する。
決定型意味順位付はステップa)で最有力候補が特定さ
れた場合はその候補を、該ステップ(1)で特定されな
かった場合は、前記頻度順位付はステップ(2)で特定
された候Mk、N択された最有力候補として決定する。
ここで、1文節意味距離」について説明する。
文節意味罪離全計算する基になる「青味コード」は、頻
度順位付けを行うための[頻度(偵−1とともに文節中
の自立語情報に含まねている。
度順位付けを行うための[頻度(偵−1とともに文節中
の自立語情報に含まねている。
「意味コード」は、単語(自立語)を意味によって分創
し、例えは次の5個の大項目カテゴリーに割り当て、こ
れに1〜5の[意味コード−1全対応させる。
し、例えは次の5個の大項目カテゴリーに割り当て、こ
れに1〜5の[意味コード−1全対応させる。
■抽象的関係(人lVt1や自然のあり方の砕細み)(
例) これ、恋仲、LPl現、人相、・・・■人間活動
の主体 (例) 私、友人、技師、」察、・・・■人間活動−精
神および行為 (例) 失神、言語、流行、脱税、・・・■生産物およ
び用具 (例) 代用品、部、米、銃、・・・ ■自然物および自然現象 (例) 光、石油、風土、身体、・・・第3図は入力文
例として コンゲラ、ダイ5カイ ナオオモリナ チクランドウ力
イガ カイサイサレマス。
例) これ、恋仲、LPl現、人相、・・・■人間活動
の主体 (例) 私、友人、技師、」察、・・・■人間活動−精
神および行為 (例) 失神、言語、流行、脱税、・・・■生産物およ
び用具 (例) 代用品、部、米、銃、・・・ ■自然物および自然現象 (例) 光、石油、風土、身体、・・・第3図は入力文
例として コンゲラ、ダイ5カイ ナオオモリナ チクランドウ力
イガ カイサイサレマス。
という仮名文を想定した場合の、各文節を構成する語V
Cついての読み、対応漢字1品詞名、育味コード、頻度
値等を示ず分析結果l・示す図である。
Cついての読み、対応漢字1品詞名、育味コード、頻度
値等を示ず分析結果l・示す図である。
第3図中の1意味コード」欄には子連の如くして決めら
れた意味コードが、「頻度値」欄には規格化された使用
頻度がそれぞれ示されている。
れた意味コードが、「頻度値」欄には規格化された使用
頻度がそれぞれ示されている。
第4図は意味コード間の距離の法定方法の一例?示す図
であり、ト述の6語の意+14にコードから、文節意味
距離か脅出される。
であり、ト述の6語の意+14にコードから、文節意味
距離か脅出される。
文節意味距離は次の、Lうに定義されるものである。−
文の連続した各文節を1,2.δ、・・・とじ、各文節
の財に決定した意味コードをX、 、X3.X8゜・・
・とすれば、第n文節の文節意味距離TJ (n)は、
L (n)−Σ 7 (X□、孔) ・・・(1
)1=1 で表わされる。ここでX は第n文MJの決定されてい
ない複数個の候補の中の任意の1つの候補の意味コード
、l(X□、xn)は意味コードx1とX。
文の連続した各文節を1,2.δ、・・・とじ、各文節
の財に決定した意味コードをX、 、X3.X8゜・・
・とすれば、第n文節の文節意味距離TJ (n)は、
L (n)−Σ 7 (X□、孔) ・・・(1
)1=1 で表わされる。ここでX は第n文MJの決定されてい
ない複数個の候補の中の任意の1つの候補の意味コード
、l(X□、xn)は意味コードx1とX。
間の距離であり、n>1とする。なお、[−記xiは各
文節で特定された候補の漬昧コードか与えられるものと
する。
文節で特定された候補の漬昧コードか与えられるものと
する。
次に、文節意味距離音用いる逐次決定型意味処理の具体
例を示す。ここでは、例として、チ給4ガ ウゴイテイ
ルトイウコトハ イマデハダレデモ ウタガウ ヒトハ
ナイ。
例を示す。ここでは、例として、チ給4ガ ウゴイテイ
ルトイウコトハ イマデハダレデモ ウタガウ ヒトハ
ナイ。
という仮名文を考える。この文の変換後の状況は次の通
りである。
りである。
上記変換後の文中に含まれる語の意味コードは次の通り
である。
である。
地球−■、動く−■、居間−■、今一■、だれるー■、
誰−■、疑−う−■、−−■9人−■。
誰−■、疑−う−■、−−■9人−■。
費途=■、ない−■
第3文節の決定は、それぞれ−意なので既に決定された
第1.第2文節を基に、@記(1)式を用いて、 (居
間) r、、3、=t (5,4) +l (1,4
)=2+3=、5 (今) L、、 = t (5,1) 十/ (1,1
)−2+1=3 より、L8□> l182であるからL82(今では)
全最有力候補と決定する。
第1.第2文節を基に、@記(1)式を用いて、 (居
間) r、、3、=t (5,4) +l (1,4
)=2+3=、5 (今) L、、 = t (5,1) 十/ (1,1
)−2+1=3 より、L8□> l182であるからL82(今では)
全最有力候補と決定する。
第4文節は上記第3文節の結果を使って、(たわる)I
IJ4□−t (5,3)+t (1,、3) +t
(]、、 3)−δ+3−1−Q (誰)r、42=t (,5,2)十l(]−12)+
t (1,2)−3+2+2=7 よりり、、:> L、2’t−あルカらL42(Wit
kcモ)=ra[する。
IJ4□−t (5,3)+t (1,、3) +t
(]、、 3)−δ+3−1−Q (誰)r、42=t (,5,2)十l(]−12)+
t (1,2)−3+2+2=7 よりり、、:> L、2’t−あルカらL42(Wit
kcモ)=ra[する。
また、頻度値については、FlfJ述の如く自立語辞書
に2桁に昶1格化された形で登録されているか、これを
用いる処理の例を次に示す。
に2桁に昶1格化された形で登録されているか、これを
用いる処理の例を次に示す。
例文としては先の例と同じ
を用いる。6語の頻度値は次の通りである。
地球−99、−助く−99、居間−〇9、今一56、だ
れるーOO1誰−99、鼾う−99、−一14、人−8
4、費徐−〇〇、ない−99 第3文節の頻度値は(居間)〈(今)で「今では」を採
用し、第牛文簡の頻度値は(だれる)〈(誰)で「誰で
も」を採用する。これらの結果は酌記逐次決定型意味処
理の結果と一致している。
れるーOO1誰−99、鼾う−99、−一14、人−8
4、費徐−〇〇、ない−99 第3文節の頻度値は(居間)〈(今)で「今では」を採
用し、第牛文簡の頻度値は(だれる)〈(誰)で「誰で
も」を採用する。これらの結果は酌記逐次決定型意味処
理の結果と一致している。
意14eコード間の距離の決定方法は第4図に示したも
のによ1)なくても良いことに注意する必要がある。
のによ1)なくても良いことに注意する必要がある。
以F述べた如く、本発明によれば、入力文を、自立語を
中心とする分かち書き単位に分解して仮名文字で入力し
、これに対応する漢字カナ混じり文を逐次a−得るカナ
漢字変換処理方式において、前記分かち書き単位ごとO
ζ決定された語の意味情報全登録し、引き続き入力され
た分かち高き単位に対応する複数の同音語が発生し4た
場合に、前記意味情報によって決定される優生順位に従
って前記複数の同音語の中から対応する漢字全出力し変
換するようにしたので、処理速度か速く、オペレ−夕に
負相全かけずに一意に決定可能なカナ漢字変換処理方式
全実現できるという顕著な効果を奏するものである。
中心とする分かち書き単位に分解して仮名文字で入力し
、これに対応する漢字カナ混じり文を逐次a−得るカナ
漢字変換処理方式において、前記分かち書き単位ごとO
ζ決定された語の意味情報全登録し、引き続き入力され
た分かち高き単位に対応する複数の同音語が発生し4た
場合に、前記意味情報によって決定される優生順位に従
って前記複数の同音語の中から対応する漢字全出力し変
換するようにしたので、処理速度か速く、オペレ−夕に
負相全かけずに一意に決定可能なカナ漢字変換処理方式
全実現できるという顕著な効果を奏するものである。
また、本発明の変換方式に頻度情報による順位付けを糾
合わせること心でより、変換の正答率をより一層向上さ
せることが可能である。
合わせること心でより、変換の正答率をより一層向上さ
せることが可能である。
第1図は本発明の一実施例であるカナ漢字変換処理のブ
ロック図、第2図は同音語判別のステップを示す図、第
3図は入力文の分析結果の一例全示す図、第4図は意味
コード間の距離の決定方法の一例全示す図である。 1:入力前処理部、2:単語抽出部、3:同音語判別部
、4=出力制御部、5:変換制御部、(1)〜(3)ニ
ステップ。 −て (11) 第2図 −」 ] ]] ]D 562− コ1) 鰺) ジ3)
ロック図、第2図は同音語判別のステップを示す図、第
3図は入力文の分析結果の一例全示す図、第4図は意味
コード間の距離の決定方法の一例全示す図である。 1:入力前処理部、2:単語抽出部、3:同音語判別部
、4=出力制御部、5:変換制御部、(1)〜(3)ニ
ステップ。 −て (11) 第2図 −」 ] ]] ]D 562− コ1) 鰺) ジ3)
Claims (1)
- 入力文全、自立fg f中心とする分がち書き単位に分
解して仮名文字で入力し、これに対応する漢字カナ混じ
り文全達次得るカナ漢字変換処理方式において、前記分
かち書き単位ごとに決定された語の意味情報を登録し、
引き続き入力された分かち鳴き単位に対応する複数の同
音語が発生した場合に、既に入力された分かち書き単位
の前記意味情報によって決定される優先順位に従って、
前記複数の同音語の中から対応する漢字全出力し変換す
ることを特徴とするカナ漢字変換処理方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56180581A JPS5882368A (ja) | 1981-11-11 | 1981-11-11 | カナ漢字変換処理方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56180581A JPS5882368A (ja) | 1981-11-11 | 1981-11-11 | カナ漢字変換処理方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS5882368A true JPS5882368A (ja) | 1983-05-17 |
Family
ID=16085759
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP56180581A Pending JPS5882368A (ja) | 1981-11-11 | 1981-11-11 | カナ漢字変換処理方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5882368A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH01229364A (ja) * | 1988-03-09 | 1989-09-13 | Canon Inc | 文字処理装置及びその方法 |
| JPH0239366A (ja) * | 1988-07-29 | 1990-02-08 | Nippon Telegr & Teleph Corp <Ntt> | かな漢字変換処理方式 |
| JPH02138662A (ja) * | 1988-11-18 | 1990-05-28 | Brother Ind Ltd | 自然言語処理用辞書 |
| JPH05120331A (ja) * | 1991-03-27 | 1993-05-18 | M C Waade Center:Kk | 同音異義語認識装置 |
-
1981
- 1981-11-11 JP JP56180581A patent/JPS5882368A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH01229364A (ja) * | 1988-03-09 | 1989-09-13 | Canon Inc | 文字処理装置及びその方法 |
| JPH0239366A (ja) * | 1988-07-29 | 1990-02-08 | Nippon Telegr & Teleph Corp <Ntt> | かな漢字変換処理方式 |
| JPH02138662A (ja) * | 1988-11-18 | 1990-05-28 | Brother Ind Ltd | 自然言語処理用辞書 |
| JPH05120331A (ja) * | 1991-03-27 | 1993-05-18 | M C Waade Center:Kk | 同音異義語認識装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Ferreira et al. | Good-enough representations in language comprehension | |
| US8515733B2 (en) | Method, device, computer program and computer program product for processing linguistic data in accordance with a formalized natural language | |
| JP2000513843A (ja) | 辞書に基づく品詞確率による自然言語パーザ | |
| JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
| CN113160793A (zh) | 基于低资源语言的语音合成方法、装置、设备及存储介质 | |
| JPS5882368A (ja) | カナ漢字変換処理方式 | |
| US5745875A (en) | Stenographic translation system automatic speech recognition | |
| CN114242038A (zh) | 一种语音合成方法及系统 | |
| CN111429886A (zh) | 一种语音识别方法及系统 | |
| CN112559761A (zh) | 基于图谱的文本生成方法、系统、电子设备及存储介质 | |
| JPH0210957B2 (ja) | ||
| JP4024614B2 (ja) | 言語モデル生成方法、装置およびプログラム、テキスト分析装置およびプログラム | |
| JPS62134698A (ja) | 多数単語の音声入力方式 | |
| Dickinson et al. | Predicting learner levels for online exercises of Hebrew | |
| JPH03179498A (ja) | 音声日本語変換方式 | |
| Ledbetter et al. | Automatic morphological analysis of learner Hungarian | |
| JPS5882369A (ja) | カナ漢字変換処理方式 | |
| Hill | PIPPA'S SONG: Two Attempts at Structural Criticism | |
| JP2675318B2 (ja) | 機械翻訳装置 | |
| JPS62121570A (ja) | 接続確率に基づく連文節変換処理方式 | |
| CN119691134A (zh) | 一种基于大语言模型的企业知识问答系统 | |
| JPS60105037A (ja) | 音声入力文章作成方式 | |
| JPH06102895A (ja) | 音声認識モデル学習装置 | |
| JPS615300A (ja) | 学習機能付音声入力装置 | |
| Beeksma et al. | shotgun: converting words into triplets: A hybrid approach to grapheme-phoneme conversion in Dutch |