JPH01260576A - 文章解析方式 - Google Patents

文章解析方式

Info

Publication number
JPH01260576A
JPH01260576A JP63088110A JP8811088A JPH01260576A JP H01260576 A JPH01260576 A JP H01260576A JP 63088110 A JP63088110 A JP 63088110A JP 8811088 A JP8811088 A JP 8811088A JP H01260576 A JPH01260576 A JP H01260576A
Authority
JP
Japan
Prior art keywords
symbol
word
emphasis
identification
explanatory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63088110A
Other languages
English (en)
Other versions
JP2702143B2 (ja
Inventor
Fukami Kamiyama
神山 ふかみ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63088110A priority Critical patent/JP2702143B2/ja
Publication of JPH01260576A publication Critical patent/JPH01260576A/ja
Application granted granted Critical
Publication of JP2702143B2 publication Critical patent/JP2702143B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概 要] 分かち書きされていない文章で、説明記号(=jき説明
語や強調記号が付加された単語を含む文章を解析して単
語同定を行う文章解析方式に関し、説明記号や強調記号
によ、って単語が解析されても単語同定が正しく行われ
ることを目的とし、分から書きされていない文章で、説
明記号イ」き説明語及び強調記号が付加された中詰を含
む文章を解析する文章解析方式において、入力文章中よ
り強調記号又は説明記号を検出して識別用の識別フラグ
を側線し、識別フラグにより人力文章から強調記Mか検
出されたときは、検出された強調記号を無視して文章解
析を行い、説明記号が検出されたときは、説明記号中の
文字がずへて仮名文字であるときに説明記号及びその中
の説明語を入力文章中から消去して文章解析を行うよう
に構成する。
〔産業上の利用分野] 本発明は、分から書きされていない文章で、説明記号イ
」き説明語<弓■JAi記号が側線された単語を含む文
章を解析して単語同定を行う文章解析方式[従来の技術
] 分から書きされていない文章では、語と語又は文節と文
l!11の間に空白が存在しないので、文章の形から直
接に詔や文節を取り出すことはてきない。
そこで、このような分かち書きされていない文章を解+
1〒し7てt41語同定を行う場合には、入力された文
章を′Iす読点や文章中にあるかぎ括弧なとの記号−C
分割し、分割された文章区分を1つの解析栄位として文
章解析が行われる。
第6Vは、分かち書きされていない文章に対する従来の
文章解析方式の構成をブロック図で示したものである。
解析単位分割部31は、分かぢ書きされていない入力文
章を句読点やかき括弧等の記号を用いて分割し、分割さ
れた文章区分を解析単位として単語辞書検索部32に送
る。
単語辞書検索部32ば、1つの解析単位が入力されると
、解析単位にある単語と単語辞書33に登録されている
各種の登録単語との照合を行って複数個の候補単語を抽
出して、単語同定部34に送る。
単語同定部34ば、抽出された各候補単語について単語
同定を行い、各候補単語中から最適の文字列を選択する
。この単語同定は動的計画法(I)P法)により行われ
る。DP法では、隣接単語の接続の強さを評価値とし、
照合対象である文字列中の総ての候補単語に対、して各
々の直前に位置する候補単語の中から最良の評価を与え
るものを逐次選択することによって、最終的に文字列全
体に対する最適格を求める(DP法による単語同定につ
いては、例えば特開昭59−90167号公報特開昭6
0−22276号公報参照)。
〔発明が解決しようとする課題〕
従来の文章解析方式は、前述のように、入力文章を句読
点やかぎ括弧等の記号をもとにして解析単位Gこ分割し
、この解析単位で文章解析を行っていた。この文章解析
方式では、入力文章が句読点たりで区切られている文章
である場合や、かぎ括弧等の記号が1つの単語を指示す
るものである場合は、良好な精度で単語同定を行うこと
かできる。
しかしながら、かぎ括弧等の記号が、単語を指示するも
のでなく、例えば単語の説明語が入る説明記号である場
合や単語を強調して表現する強調記号である場合は、こ
れらの記号で文章を分割すると、単語が分断されて単語
同定に失敗するという問題が生しる。
例えば、新聞記事の文章によく見られるように、難しい
漢字の読のをその漢字の後に括弧で囲んで示した入力文
章“′撚(ねん)糸工連でば〜”の場合、説明記号”(
)”で分割されるので、“撚糸゛′が“′撚゛と゛糸゛
°に分断される。解析ば、まずパ撚パだけで行われ、次
に“ねん゛について、その次に“糸工連でば〜”′につ
いて行われる。この結果、゛撚゛だけの単語は存在しな
いので、単語同定は失敗となる。
また、単語゛無策゛をかぎ括弧からなる強調記号で強調
した入力文章゛「無策」ふりを〜”′の場合、強調記号
゛「」”で分割されるので、゛無策ふり”が分断され、
゛無策”で1つの力4二析単位が抽出され、「ふりをJ
で1つの解析単位が抽出される。この結果、接尾語であ
る°゛ふり°”か、名詞の“ふり(吻)”と誤って単語
同定されて、単語同定は失敗する。
本発明は、説明記号や強調記号によって単語が分断され
ても単語同定を正しく行うことができるように改良した
文章解析方式を提供することを目的とする。
(課題を解決するだめの手段] 前述の課題を解決するために本発明か採用した手段を、
第1図を参照して説明する。第1図(A)は本出願の特
定発明の基本構成を、第1図(B)は関連発明の基本構
成をそれぞれブロック図で示したものである。
第1図(A)において、11は強調記号検出部で、分か
ち書きされていない入力文章中より単語を強調する強調
記号を検出し、検出された強調記号に識別用の識別フラ
グを付加する処理を行う。
12は文章解析手段で、識別フラグにより入力文章中か
ら強調記号を検出し、検出された強調記号を無視して文
章を解析し単語同定を行う。
次に、第1図(B)において、21は説明記号検出部で
、分かち書きされていない入力文章中より単語を説明す
る説明記号を検出し、検出された説明記号に識別用の識
別フラグを付加する処理を行う。
22ば挿入説明消去部で、識別フラグにより入力文章中
から説明記号を検出し、説明記号中の文字がすべて仮名
文字であるときは説明記号及びその中の説明語を入力文
章中から消去する処理を行う。
23は文章解析手段で、説明記号及びその中の説明文字
が消去された文章について解析し単語同定を行う。
〔作 用〕
最初に、第1図(A)に示した特定発明の作用を、分か
ち書きされていない人力文章が“「無策」ふりを〜”で
あり、強調記号が“[」゛である場合を例にとって説明
する。
強調記号検出部11は、分かち書きされていない人力文
章中より単語を強調する強調記号“′「」゛を検出し、
強調記号の始まり側記号”r”及びその受け側記号゛」
“にそれぞれ識別フラグをイ]加して、文章解析手段1
2に送る。
文章解析手段12ば、識別フラグにより人力文章中から
強調記号を検出し、強調記号が検出された場合はそれを
無視して文章解析を行う。
すなわち、入力文章が“「無策」ふりを〜゛の場合、強
調記号“「」°°が無視され、人力文章は“無策ぷりを
〜゛であるとして文章解析が行ねれる。
これにより、゛′無策ぷりを〜′”が1つの解析単位と
なり、従来方式のように″無策“と“ふりを〜゛に分割
されないので、正しい単語同定を行うことができる。
強調記号において、“′「パは一般に単語の始まりを示
すが、その受け側記号”J”は単語の終わりを示さない
。したがって、強調記号検出部11において、強調記号
の始まり側記号“′「°と受U側記号“」゛にそれぞれ
別の識別フラグを付加し、文章解析手段12において、
始まり側記号パ「゛は解析単位の区切りとし、受け側記
号“1.llc才解析単位の区切りとせず、この受け側
記号“1”°を無視して単語同定を行うようにすると、
単語同定を良好な精度でかつ効率良く行うことができる
次に、第1図(B)に示し7た関連発明の作用を、分か
ち書きされていない入力文章が”P、(ねん)糸工連で
は〜゛であり、説明記号が゛()゛である場合を例にと
って説明する。
説明記号検出部21は、分から書きされていない入力文
章中より単語を説明する説明記号パ()パを検出し、説
明記号にそれを識別するための識別フラグをイNJ)J
IIU7て、説明文消去部22に送る。
挿入説明消去部22は、識別フラグに、l、り人力文章
中から説明記号を検出し、説明記号中の文字がずへて平
仮名又は片仮名等の仮名文字であるか否かを判定する。
すべてか仮名文字であるときは、その記号内の文字列は
直前の単8I(の説明lidであると判定し、説明記号
及びその説明記号中の説明語を入力文章中から消去して
、文章解析手段23に送る。入力文章“撚(ねん)糸工
連では〜゛の場合、説明記号”()’”17旧Jずべで
平仮名であるので、′(ねん)”か消去され、“撚糸下
運では〜”が入力文章として文章手段INこ送られる。
文章解析手段23υ11、パ(ねん)パが消去された人
力文章゛′撚糸工連では〜゛について文草解1ノ1を行
・う。この場合、°(ねん)”′か消去されているので
、“撚゛か解析単位として区分されることかなくなり、
゛撚糸−に連てl」゛か1つの解析111位となるので
、正しいQj語同定が行われろようになる。
以−l=のようにして、説明記υ−や強調記刃によって
単dr1か分断されても、単語同定を正しく行うことが
できる。
(特定発明の実施例1 相定発明の実施例を、第2図及び第3図を参照して説明
する。第2図は特定発明の一実施例の構成の説明図、第
(3図は同実施例の処理フローチャー 1−である。双
子の説明において、分かち書きされていない入力文章は
“’r;■4策」ふりを〜゛であり、強調記号は′[1
゛であるとする。
(A)実施例の構成 第21ン1において、強誹1記刊検出部11及び文章解
析手段12について!J、第1し] (A)で説明した
とおりである。
強調記5J−検出部]](」、検出された強調記号の始
まり側記号゛「”には識別フラグF a lを付加し、
受り側記号”J”には識別フラグFq2をイス1加する
t)のとする。
文章解析手段12において、]、 21 i;+解析f
)′1位分割部で、分かち書きされていない入力文章を
解析単位に分割する処理を行う。
122は単語辞書で、各種の単語に対する標【1峠単詔
が登録されている。
123は43. i7i辞書検索部で、解析中位乙こあ
る各単語と単語辞書122にある各種の標(1!−単語
七の照合を行って候補単語を抽出する。
124は単語同定部で、抽出された各候補単語について
単語同定処理を行い、各候補単語から最適の文字列を選
択する処理を行う。
(B)実施例の動作 実施例のIJ]作を、第33図の処理フローチャー1を
参照し、その処理ステップに従って説明する。
■ 処理Sl1 強調記号検出部11ば、分かち書きされていない入力文
章中より単語を強調する強調記号“「」゛を検出し、そ
の始まり側記号”r”に91i(別フラグ)パ□1をイ
ス1力II +−,、その受け側記号“1”に識別フラ
クト゛3.を石1加し7て、解析中位分割部12]に送
る。強調記号”r、”の対が複数3JI検出された場合
にも、各始まり側記号゛「゛には共通に識別フラクIパ
5.1か旬月され、その各受り側記号”J”にG」共通
に識別フラグF a2が付加される。
■ 処理S 12 + 31313141 Sl!i解
析単位分割部]、、 21 !t、入力文章中より識別
フラグFat及びF” a 2の検出を行う(処理S1
の。
識別フラグFaI及びFa□のいずれのフラグも検出さ
れlζいときGJ、句読点か検出された場合を除き文章
の区切りは行わない(処理S、4)。
識別フラグか検出された場合、解析単位分割部121ば
、それか受の側記号” 1 ”に対する識別フラグFa
2であるときは文章の区切りは行わない(処理S 13
! S 14)。これに対し、識別フラグか検出され、
それか始まり側記号”r”に夕・1する識別フラグド5
.1であるときは文章の区切りを行う(処理S、3,3
.5)。
このようにして、強調記刊の始まり(jl言己屑−′[
゛と句読点が検出されたときGこ文章の区9Jりが行わ
れ、1つの区切りと次の区切りの[(11の文章が1つ
の解析単位として分割されて、f4i RN 舌字書検
索部123に送られる。人力文章“「j県東」ふりを〜
゛の場合、′「無策」ス、りを〜゛力く1つの解析単位
として単語辞書検索部123乙こ送られる。
■ 処理S16 単語辞書検索部123は、解析単位に登録されている各
単語と単語辞書122にある各111′!の標準単語と
の照合を行って候補単語を>llt iH−!l−る。
“無策ふり゛に対しては、例えbi表1のような候補単
語が抽出されて単語同定部124しこ送られる。
■ 処理S 17 単語同定部124は、抽出された表1の各候補単語につ
いて公知の動的計画法等により単語固定処理を行い、各
候補tP、詔から最適の文字列を選択する。なお、この
場合、強調記号の受け側記号”J”は無視して単語同定
処理が行われる。動的計画法(DP法)では隣接単語間
の接続の強さを評価値とし、照合対象である文字列中の
総ての候補単語に対し゛て、各々の直前に位置する候補
単語の中から最良の評価を与えるものを逐次選択するこ
とによって、最終的に文字列全体に対する最適解析が求
められる。
これにより、表2に示すように正しい単語間定結果が得
られる。
表    2 〔関連発明の実施例〕 関連発明の実施例を、第4図及び第5図を参照して説明
する。第4図は関連発明の一実施例の構成の説明図、第
5図は同実施例の処理フローチーレートである。以下の
説明において、分かち書きされない人力文章ば撚(ねん
)糸工連では〜″°であり、説明記刊はパ()“°であ
るとする。
(A)実施例の構成 第4図において、説明記号検出部21、挿入説明消去部
22及び文章解析手段23に一ついては、第1図(B)
で説明したとおりである。
説明記号検出部21は、検出された説明記号の始まり側
記号“(”に識別フラグF’b+を付加し、受け側記号
“)”に識別フラグFl12を付加するものとする。
文章解析手段23において、231は解析単位分割部で
、分かち書きされていない入力文章を解析単位に分割す
る処理を行う。
232は単語辞書で、各種の単語に対する標準単語が登
録されている。
233は単語辞書検索部で、解析単語にある各単語と単
語辞書232にある各種の標準単語との照合を行って候
補単語を抽出する。
234ば単語同定部で、抽出された各候補単語について
単語同定処理を行い、各候補単語から最適の文字列を選
択する処理を行う。
(B)実施例の動作 実施例の動作を、第5図のフローチャートを参照し、そ
の処理ステップに従って説明する。
■  処工里S21 説明記号検出部21は、分かち書きされていない人力文
章中より単語を説明する説明記号゛()゛を検出し、そ
の始まり側記号”(”aこ] 8 識別フラグF1.1を付加し、その受け側記壮゛)パに
識別フラグ]”l+、をイ\]加して、挿入説明消去部
22に送る。説明記−冒“()゛の対か複数8、[1検
出された場合にも、各始11−り側記号パ(″にGンl
共通に識別フラグF blかイく1加され、その各受り
側記冒、 II ) II a;1は共通に識別フラグ
Fb2が伺ノ用される。
■ 処理S221 S2:+ y S□4挿入説明消去
部22る」、人力文章中より識別フラグF b l及び
F b2の検出をj)う(処理522)。
識別フラグF bl及びF b2のいずれのフラグも検
出されないときは、入力文章をそのままM: +)1−
.1j−位置割部231に送り処理S25の処理を行う
識別フラグが検出された場合、挿入説明消去部22ば、
識別フラグF’ b lとぞの受iJ側の識別フラグF
42.の間にある文字かず・・、て仮名文字であるか否
かを判別する(処理S2.)。
ず−・てが仮名文字であるときは、その記号内の文字列
む;1直前の中1i’!jの説明のため1、こ挿入され
たものであると判定し、説明記号及びその説明記翼中の
説明S71を人力文章中から消去して、ヌQ uG +
J7丁段2;3に送る(処理524)。これにより、入
力文章”l;4. (ねん)糸工連でシ31〜・“の場
合、説明記号”()”内の文字はすべて平仮名であるの
で、′(ねん)”か消去され、゛撚糸二[連ては−゛か
入力文章として解析単位分割i’il+ 23 ]乙こ
iスられる。
説明記ソ3内にある文字の一部に仮名文字で41″いも
のかあれば、説明記号及びその中の文字を消去すること
なく解析単位分割部231に送る。
ごの場ギ習311、″科技斤(科学技術庁)°のよ・う
乙こ“’()”内の単語とその直前の中胴とはそれぞれ
かjlIM″析1)【位となる単語であり、”()”に
よるjl’+語の分断モ:]″クトシないので、そのま
ま文i、′I:i(’+″析を行っても問題は生じない
■ 処理S2!。
M +Ji1’−位分割部23 ] 11J、従来方式
と同様に人力文章を句3::e点や括弧3己ビ等により
区切り、■−7)の区切りから次の[ネリJりの間を文
章を1゛つの解析単位として1算71辞書検索部23ζ
3に送る。
入力文章゛′撚糸−下連゛ζは〜゛の場合、この文章か
1つの解析単位として”li 、i7j辞(C検索部2
33に送られる。
■ 処理S 26 + 82゜ 単語辞書検索部233は、第3図の4′li Nt’i
辞害検索部123と同様に、解析ア11位にある各単語
と単4¥1辞書232に登録されている各種の標〈1動
車語との照合を行って候補単語を抽出1−で11.IF
語同定部234に送る(処理S21.)。
単語同定部234は、抽出された各候補i1尊7’1に
ついて第3図の単語同定部124と同様にφ語同定処理
を行い、各候補−eli ;i、’iから最適の文字列
を選択する。
[発明の効果] 以−1−説明したように、本発明によれば、分かり店き
されていない人力文章において単語説明用や強調用の各
記号によって」”It 87iが分Iυiされても、1
1’1詔同定を市しく行−・う、二とか一部きる。
4図j’fi−iの′i’;i7単な説明第1図る。r
、本出願の1h定発明及び関連発明の−と木構成の説明
し1、 第2図は、特定発明の実施例の構成の説明図、第3図は
、特定発明の実施例の処理フローチャー1へ、 第4図t」、関連発明の実施例の構成の説明し1、第5
図は、関連発明の実施例の処理フローチャーI・、 第〔5図は、従来の文章解析方式の説明図である。
第1図、第2図及び第4図において、 11・・・強調記号検出部、12・・・文章解+17手
段、121 ・解析単位分割部、122・・・単語辞書
、123・単語辞書検索部、124・・・単語同定部、
21・説明記号検出部、22・・挿入説明消去部、23
・・文章解析手段、231・・・解析単位分割部、23
2・!I” ’li?i辞書、2333・・・Nli語
辞書検索部、234 ・単語同定部。

Claims (3)

    【特許請求の範囲】
  1. (1)分かち書きされていない文章で、強調記号が付加
    された単語を含む文章を解析する文章解析方式において
    、 (A)入力文章中より単語を強調する強調記号を検出し
    、検出された強調記号に識別用の識別フラグを付加する
    強調記号検出部(11)と、(B)識別フラグにより入
    力文章中から強調記号を検出し、検出された強調記号を
    無視して文章を解析し単語同定を行う文章解析手段(1
    2)、 を備えたことを特徴とする文章解析方式。
  2. (2)強調記号検出部(11)は、強調記号の始まり側
    記号とその受け側記号に別個の識別フラグを付加し、文
    章解析手段(12)は、強調記号の始まり側記号では解
    析単位の区切りを行わず、受け側記号では解析単位の区
    切りを行って文章解析を行うことを特徴とする請求項(
    1)記載の文章解析方式。
  3. (3)分かち書きされていない文章で、説明記号付きの
    説明語が付加された単語を含む文章を解析する文章解析
    方式において、 (A)入力文章中より単語を説明する説明記号を検出し
    、検出された説明記号に識別用の識別フラグを付加する
    説明記号検出部(21)と、(B)識別フラグにより入
    力文章中から説明記号を検出し、説明記号中の文字がす
    べて仮名文字であるときは説明記号及びその中の説明語
    を入力文章中から消去する挿入説明消去部(22)と、 (C)説明記号及びその中の説明語が消去された入力文
    章について文章を解析し単語同定を行う文章解析手段(
    23)、 を備えたことを特徴とする文章解析方式。
JP63088110A 1988-04-12 1988-04-12 文章解析方式 Expired - Fee Related JP2702143B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63088110A JP2702143B2 (ja) 1988-04-12 1988-04-12 文章解析方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63088110A JP2702143B2 (ja) 1988-04-12 1988-04-12 文章解析方式

Publications (2)

Publication Number Publication Date
JPH01260576A true JPH01260576A (ja) 1989-10-17
JP2702143B2 JP2702143B2 (ja) 1998-01-21

Family

ID=13933743

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63088110A Expired - Fee Related JP2702143B2 (ja) 1988-04-12 1988-04-12 文章解析方式

Country Status (1)

Country Link
JP (1) JP2702143B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57113187A (en) * 1980-12-19 1982-07-14 Ibm Method of processing text

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57113187A (en) * 1980-12-19 1982-07-14 Ibm Method of processing text

Also Published As

Publication number Publication date
JP2702143B2 (ja) 1998-01-21

Similar Documents

Publication Publication Date Title
CN101587657A (zh) 学习协助系统、程序以及学习协助方法
JPH11194793A (ja) 音声ワープロ
CN109614623A (zh) 一种基于句法分析的作文处理方法及系统
US20240412725A1 (en) Presentation evaluation device
JPH01260576A (ja) 文章解析方式
JPH04252375A (ja) 情報提供方法
Goonawardena et al. Automated spelling checker and grammatical error detection and correction model for sinhala language
JP2611904B2 (ja) 文字認識装置
Raza et al. N-gram based authorship attribution in Urdu poetry
WO2010038481A1 (ja) 文章抽出プログラムを記録したコンピュータ読み取り可能な記録媒体、文章抽出方法、文章抽出装置
Osman et al. Plagiarism detection using graph-based representation
CN116665236A (zh) 一种跨页段落识别拼接方法及装置
CN108133706B (zh) 语义识别方法及装置
KR102118322B1 (ko) 원문과 번역문 파일을 개별적으로 생성하는 문서 번역 서버 및 번역 방법
JP2015022406A (ja) テキストによる視覚表現を含む文書を分析する装置、方法およびプログラム
JP2008171164A (ja) 分類付与支援装置及び方法及びプログラム
Li Recognizing English learners’ native language from their writings
Bowden Cooperative error handling and shallow processing
JP2007122660A (ja) 文書データ処理装置および文書データ処理プログラム
JP2570681B2 (ja) ワード・プロセッサ
JP3996797B2 (ja) 整合性評価方法,整合性評価プログラムおよび整合性評価装置
Lima et al. An adaptive information extraction system based on wrapper induction with POS tagging
JPWO2015194140A1 (ja) 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム
JP2000276472A (ja) 類似情報照合装置、類似情報照合方法、及び、類似情報照合プログラムを記録した記録媒体
JPS61180329A (ja) 音声による文章入力装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees