JP2592995B2 - 文節切出し装置 - Google Patents

文節切出し装置

Info

Publication number
JP2592995B2
JP2592995B2 JP2331063A JP33106390A JP2592995B2 JP 2592995 B2 JP2592995 B2 JP 2592995B2 JP 2331063 A JP2331063 A JP 2331063A JP 33106390 A JP33106390 A JP 33106390A JP 2592995 B2 JP2592995 B2 JP 2592995B2
Authority
JP
Japan
Prior art keywords
phrase
character
sentence
hiragana
break
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2331063A
Other languages
English (en)
Other versions
JPH04195672A (ja
Inventor
茂起 空閑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2331063A priority Critical patent/JP2592995B2/ja
Publication of JPH04195672A publication Critical patent/JPH04195672A/ja
Application granted granted Critical
Publication of JP2592995B2 publication Critical patent/JP2592995B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 (イ)産業上の利用分野 この発明は文節切出し装置に関し、詳しくはワードプ
ロセッサ、翻訳装置、校正装置、データベースを利用す
る装置等のように言語処理を行う装置に好適な文節切出
し装置に関する。
(ロ)従来の技術 文節区切りの情報が挿入されていない変換済みの日本
語文書から、例えば翻訳や校正のために文節を切り出す
ためには、従来、自立語辞書、付属語辞書、接辞辞書等
の辞書類と、それらの要素の接続関係を表すテーブル、
文法テーブル等のテーブル類をそれぞれ参照しながら文
節の切り出しを行っている。
また、字種情報を利用し、例えば字種の変わり目を文
節の切れ目とする方法も考えられている。
(ハ)発明が解決しようとする課題 このような、辞書類、テーブル類を利用する従来の文
節切出し装置においては、(1)それらの辞書、テーブ
ルを蓄積するために大量の記憶装置が必要になる。
(2)辞書検索またはテーブル検索を行うために文節切
出し処理の時間が長くなる。(3)文節切出しのための
制御プログラムが複雑になる。また、(4)字種情報を
利用して文節を切る場合、機械的に字種によって文節を
切り出すため、送りがなのゆらぎで文節の切断を間違う
場合がある。(5)かな表記の単語の部分で文節の切り
出し間違いを発生する場合があるなどの諸問題があっ
た。
この発明は以上の事情を考慮してなされたもので、上
記問題を解消しうる文節切出し装置を提供する。
(ニ)課題を解決するための手段 第1図はこの発明の基本構成を明示するブロック図で
ある。同図において、この発明は、文章を蓄積する文章
蓄積手段1と、文章蓄積手段1から所望の文章を読み出
すための指示を行う指示手段2と、指示された文章を文
章蓄積手段1から文章単位で読み出す読出手段3と、読
み出した文について文章の1文字ごとに固有の文字コー
ドに基づいて漢字、ひらがな、カタカナなどの字種と句
点とを判別し判別記号を生成する字種判別手段4と、前
記判別記号を2種類の符号のいずれかに置き換えて出力
する変換手段5と、変換手段5から出力された符号を読
み出した文章単位で順次蓄積する判別結果蓄積手段6
と、判別結果蓄積手段6に蓄積された符号列について、
所定の符号変移点を検出し、この変移点に基づいて読み
出した文章中に文節の切れ目を挿入する文節切出し手段
7と、連体詞、代名詞、副詞、接続詞などからなり、文
節を伴う特定のひらがな文字列を多数記憶している特定
文字辞書手段8と、文節切出し手段によって文節の切れ
目を挿入した後に、文節の切れ目が挿入された文章中に
前記特定のひらがな文字列が存在するかどうかをひらが
な文字列の先頭に向かって検索し、特定のひらがな文字
列が存在する場合に、そのひらがな文字列を1つの文節
として前記文章中に文節の切れ目を挿入し、文節切れ目
挿入位置を修正する文節切出し修正手段9と、文節切出
し修正手段9から出力される文を記憶する記憶手段10
と、記憶手段10に記憶された文を可視出力する出力手段
11とからなる文節切出し装置である。
この発明において、前記特定文字辞書手段8に記憶さ
れている各ひらがな文字列は、前記検索におけるひらが
な文字抽出順序と同順序にて格納されていることが好ま
しい。
この発明における文節切出し装置は、ワードプロセッ
サ、翻訳装置、校正装置、データベースを利用する装置
等に適用することができ、また、文章を音声出力する装
置においても文節切出し処理が必要なため、この発明を
適用することができる。
(ホ)作用 この発明に従えば、文章蓄積手段1に蓄積されている
文章から、切出し処理の単位、例えば1文を切り出す
と、その文を構成する各文字の字種が字種判別手段4に
よって判別され、その判別結果は変換手段5によって2
種類の符号のいずれか、例えばLまたはHに置き換えら
れ、判別結果蓄積手段6に順次蓄積される。次いで文節
切出し手段7は、あらかじめ決められている符号変移
点、例えばLからHへの変わり目を検出した際に、読み
出した文中に文節の切れ目を入れる。次いで文節切出し
修正手段9は、文節の切れ目からさかのぼって特定文字
辞書手段8に規定されるひらがな文字と入力文字列とを
比較することにより、一致したひらがな文字を1つの文
節として認識し、文節切出し位置を修正し、修正した結
果を確認できるよう、得られた結果を出力手段11に出力
するよう作用する。
(ヘ)実施例 以下図に示す実施例に基づいてこの発明を詳述する。
なお、これによってこの発明は限定されるものではな
い。
第2図はこの発明をワードプロセッサに適用した一実
施例を示す構成図である。同図において20はワードプロ
セッサ本体である。21は文章蓄積装置であり、外部記憶
装置としての例えばフロッピーディスク,ハードディス
ク、あるいは内部記憶装置としての例えばRAM、あるい
はその他の蓄積装置としての例えばデータベース等から
構成することができ、かな漢字交じりからなる日本語文
書が蓄積されている。22は指示手段としてのキーボード
であり、文章編集、文章校正等を行うための文字入力キ
ー、各種の指示キー等を備えており、、文章を入力する
とともに、文章蓄積装置21から所望の文を読み出すため
の指示を入力する。23はCPU24と協働する読出装置であ
り、キーボード22にて指示された文を文章蓄積装置21か
ら読み出す。25はCPU24と協働する字種判別装置であ
り、文章蓄積装置21から読み出した文について、1文字
ずつ漢字、ひらがな、カタカナ等の字種を判別するとと
もに、句点を判別する。26は判別結果蓄積手段および記
憶手段としての結果蓄積装置であり、RAMから構成さ
れ、字種判別結果を順次蓄積するとともに、後述する文
節切出し装置によって切れ目が入れられた文を記憶す
る。
27はCPU24と協働する変換手段としての字種デジタル
化装置であり、字種判別装置25による字種の判別結果と
しての漢字およびカタカナに対しては第1のコード、具
体的には“H"を付し、ひらがなおよび句点に対しては第
2のコード、具体的には“L"を付し、それにより字種判
別結果を2種類のコード“H"または“L"のいずれかに置
き換える。そして字種判別結果であるコード“H",“L"
の記号列はCPU24を介して結果蓄積装置26に蓄積され
る。
文節切出し装置28は、CPU24と協働し、結果蓄積装置2
6に蓄積されたコード列“H",“L"について所定のコード
変移点を検出したときに、読み出した文中に文節の切れ
目を入れる。
29はROMから構成される特定文字辞書テーブルであ
り、連体詞、代名詞、副詞、接続詞などからなり、文節
を伴う特定のひらがな文字列を多数記憶している。この
特定文字辞書テーブル29に記憶されている各ひらがな文
字列は、前記検索におけるひらがな文字抽出順序と同順
序にて格納されている。
30はCPU24と協働する文節切出し修正装置であり、文
節の切れ目が挿入された文中に前記特定のひらがな文字
列が存在するかどうかを検索し、特定のひらがな文字列
が存在する場合に、そのひらがな文字列を1つの文節と
して前記文中に文節の切れ目を挿入し、文節切れ目挿入
位置を修正する。
31は出力制御部32を介してCPU24と接続される出力手
段としての表示装置であり、CRTやLCD等のドットマトリ
クスタイプの表示装置から構成され、文節の切れ目を確
認することができるように、切れ目が挿入された文を表
示する。
このような構成において、例文「特許庁に出す資料を
このワープロで作成し電子出願した。」を用い、第12図
に示すフローチャートにしたがって文節切出し処理を説
明する。
第3図は文章ファイル、その他のデータベース等が蓄
積された文章蓄積装置21から処理の単位に合わせて例え
ば1文を切り出し、結果蓄積装置26に蓄積した状態を示
している。このように、例えば1文、1段落、1章など
のように、処理単位に合わせ、文章蓄積装置21から所望
の文が切り出されると(ステップ40)、その文を構成し
ている字種のコードが判別される(ステップ41)。詳し
くは、読み出された文の各文字にはJISコードなどの固
有の文字コードが割り当てられているため、その文字コ
ードを、第4図に示すコード判別テーブルの各条件とを
照合することにより、字種を判別する。条件においてcc
は字種判別対象の文字であり、a1とb1は漢字コードの先
頭および終端を表し、a2とb2はひらがなコードの先頭お
よび終端を表し、a3とb3はカタカナコードの先頭および
終端を表し、a4は句点を表している。
判別された字種コードは、結果蓄積装置26に蓄積され
(ステップ42)、字種デジタル化装置27によってデジタ
ル化が行われる(ステップ43)。第5図に、判別された
出力コードをデジタル化するために参照されるコードデ
ジタル化テーブルを示す。すなわち、字種が漢字と判別
されるとコード“H"に変換され、ひらがなと判別される
とコード“L"に変換され、同じくカタカナはコード“H"
に、句はコード“L"にそれぞれ置き換えられる。コード
デジタル化テーブルとの照合により文をデジタル化した
結果は、第6図に示すコード列にて結果蓄積装置26に蓄
積される。
次にデジタル化した結果を、第7図に示す切り出し判
別テーブルと照合し、文節切れ目を判別する(ステップ
44)。文節切れ目の判別は、(1)デジタル出力におけ
る“L"と“H"の変移点でキーワード(文節)の切れ目を
入れる。(2)句点の次にキーワードの切れ目を入れる
ことにより判別される。
次に、切り出し判別テーブルとの照合による切れ目の
判別に基づいて切れ目に切り出し記号、例えば「/」を
挿入し、その切り出し記号が挿入された文を結果蓄積装
置26に蓄積する。上記処理により得られる文節切出し結
果を第8図に示す。
字種の変わり目の情報のみを利用して文節の切り出し
を行うと、第8図に示すように、単語が、ひらがな表記
されている場合に、その単語を含む文節が切り出せない
という欠点が残る。今の例文では、代名詞「この」が前
の文節に吸収され「資料をこの」が一つの文節となって
いる。このような、ひらがな表記に起因する文節切り間
違いを修正するのがこの発明の特徴である。
それを実現するために、代表的なひらがな表記の単語
列を蓄積した特定文字辞書テーブル29を用いる。ひらが
な表記の単語列の集合は、通常の言語生活の中から周知
の事実として作成することができる。例えば、品詞分類
で説明すると、連体詞、代名詞、副詞、接続詞などの中
にそのようなひらがな表記単語が多い。
第9図は特定文字辞書テーブル29を説明するためのひ
らがな表記テーブル例を示したものである。同図は説明
上のための代表的な単語を示しており、通常の単語の文
字列の順序にソートしたものである。第10図は上記ひら
がな表記テーブルを逆引きできるようにソートしたもの
であり特定文字辞書テーブル29の内容を示している。
ステップ44に引き続き、特定文字辞書テーブル29を参
照することにより、第8図のように文節切断された文字
列から、ひらがな文字列の部分を、文字列先頭に向かっ
て検索する(ステップ45)。特定文字辞書テーブル29に
蓄積されている単語の並びに順序は、上記したように、
文字列の検索の順序と同じであり、1文字の照合失敗で
その単語との照合を解放することができるため、一致照
合までの時間を短縮させることができる。また、途中で
照合失敗であることが確認できるので、バッファの容量
の少なくて済む。この処理は字種がひらがなから他の字
種へ変わるひらがな文字列の間で実行される。
この実施例の場合、「をこの」の部分の「この」が照
合に成功する(ステップ46)。照合に成功すれば、ひら
がな表記単語の先頭で文節が始めるように文節の切れ目
を追加挿入し、文節の切出し位置を修正する(ステップ
47)。その結果、第8図の文章を第11図に示すように文
節切出し位置が修正される。次いで修正結果は結果蓄積
装置26に格納される(ステップ48)。
次いで終了条件がnoであれば、すなわち次ぎに文節切
出しを行うべき文があれば、次の文を文章蓄積装置21か
ら読み出す処理、また、蓄積する位置が重複しないよう
に制御を行う(ステップ49)。
ステップ49においてyes、すなわち、切出し処理を行
う対象がなくなれば、必要とする情報を結果蓄積装置26
に蓄積し、処理を終了する(ステップ50)。
(ト)発明の効果 この発明によれば、(1)文節の切り出しを行う際
に、辞書を利用しないため装置の構成を簡略化できる。
それにより、ワードプロセッサやオフィスコンピュータ
はもちろん、それ以外の小型機器、具体的には電子手帳
やプログラム機能付き電卓においてもこの発明を適用す
ることができる。(2)文節切り出し処理、キーワード
検索処理を高速で行うことができる。(3)文節切り出
しのための制御プログラムを簡単にすることができる。
(4)文節を切り出す場合、日本語ではベタ書きのた
め、文節の位置がわからないという欠点があり、そのた
め、文節をどこから始め、どこで終了するかを決定する
のに多大な処理と時間を必要としている。この発明によ
れば、文節位置を決定した後から言語処理を行うことが
できるため、処理時間を大幅に短縮することができる。
(5)字種判別結果をディジタル回路で2値に置き換え
て処理するため、処理が高速になり、回路が簡略化さ
れ、かつ文節切り出し装置を安価で実現することができ
る。(6)ひらがな表記単語による文節切出し位置の間
違いを減少させることができる。(7)特定文字辞書の
ひらがな表記文字列と入力文字列の比較照合を速く行
え、照合に際しては辞書に要するバッファメモリの容量
を少ない容量で実現することができる。
【図面の簡単な説明】
第1図はこの発明の基本構成を明示するブロック図、第
2図はこの発明の一実施例であるワードプロセッサの構
成を示すブロック図、第3図は文章蓄積装置に蓄積され
た文の一例を示す説明図、第4図は字種判別テーブルの
内容を示す説明図、第5図はコードデジタル化テーブル
の内容を示す説明図、第6図は字種判別結果を示す説明
図、第7図は文節切出し判別テーブルの内容を示す説明
図、第8図は切出し結果を示す説明図、第9図および第
10図は特定文字辞書テーブルの内容を示す説明図、第11
図は切出し位置修正結果を示す説明図、第12図は実施例
の処理動作を示すフローチャートである。 1……文章蓄積手段、2……指示手段、3……読出手
段、4……字種判別手段、5……変換手段、6……判別
結果蓄積手段、7……文節切出し手段、8……特定文字
辞書手段、9……文節切出し修正手段、10……記憶手
段、11……出力手段。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】文章を蓄積する文章蓄積手段と、 文章蓄積手段から所望の文章を読み出すための指示を行
    う指示手段と、 指示された文章を文章蓄積手段から文章単位で読み出す
    読出手段と、 読み出した文章の1文字ごとに固有の文字コードに基づ
    いて漢字、ひらがな、カタカナなどの字種と句点とを判
    別し判別記号を生成する字種判別手段と、 前記判別記号を2種類の符号のいずれかに置き換えて出
    力する変換手段と、 変換手段から出力された符号を読み出した文章単位で順
    次蓄積する判別結果蓄積手段と、 判別結果蓄積手段に蓄積された符号列について、所定の
    符号変移点を検出し、この変移点に基づいて読み出した
    文章中に文節の切れ目を挿入する文節切出し手段と、 連体詞、代名詞、副詞、接続詞などからなり、文節を伴
    う特定のひらがな文字列を多数記憶している特定文字辞
    書手段と、 文節切出し手段によって文節の切れ目を挿入した後に、
    文節の切れ目が挿入された文章中に前記特定のひらがな
    文字列が存在するかどうかをひらがな文字列の先頭に向
    かって検索し、特定のひらがな文字列が存在する場合
    に、そのひらがな文字列を1つの文節として前記文章中
    に文節の切れ目を挿入し、文節切れ目挿入位置を修正す
    る文節切出し修正手段と、 文節切出し修正手段から出力される文を記憶する記憶手
    段と、 記憶手段に記憶された文を可視出力する出力手段とから
    なる文節切出し装置。
  2. 【請求項2】前記特定文字辞書手段に記憶されている各
    ひらがな文字列が、前記検索におけるひらがな文字抽出
    順序と同順序にて格納されていることを特徴とする請求
    項1記載の文節切出し装置。
JP2331063A 1990-11-28 1990-11-28 文節切出し装置 Expired - Fee Related JP2592995B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2331063A JP2592995B2 (ja) 1990-11-28 1990-11-28 文節切出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2331063A JP2592995B2 (ja) 1990-11-28 1990-11-28 文節切出し装置

Publications (2)

Publication Number Publication Date
JPH04195672A JPH04195672A (ja) 1992-07-15
JP2592995B2 true JP2592995B2 (ja) 1997-03-19

Family

ID=18239445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2331063A Expired - Fee Related JP2592995B2 (ja) 1990-11-28 1990-11-28 文節切出し装置

Country Status (1)

Country Link
JP (1) JP2592995B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0810452B2 (ja) * 1988-04-18 1996-01-31 日本電信電話株式会社 日本語対象文固有用語抽出処理装置
JPH01295369A (ja) * 1988-05-24 1989-11-29 Hitachi Ltd 漢字仮名混じり文節分割処理方式

Also Published As

Publication number Publication date
JPH04195672A (ja) 1992-07-15

Similar Documents

Publication Publication Date Title
US5384703A (en) Method and apparatus for summarizing documents according to theme
US5010486A (en) System and method for language translation including replacement of a selected word for future translation
EP0370774A2 (en) Machine translation system
JPH07325828A (ja) 文法チェックシステム
JPH0877173A (ja) 文字列修正システムとその方法
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
US5560037A (en) Compact hyphenation point data
Gezmu et al. Portable spelling corrector for a less-resourced language: Amharic
JP3689954B2 (ja) 異種コード文字列転記装置および電子辞書
US5079701A (en) System for registering new words by using linguistically comparable reference words
JP2592995B2 (ja) 文節切出し装置
JP2681663B2 (ja) 日本文訂正候補文字抽出方法
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
JP2592993B2 (ja) 文節切り出し装置
JPS61248160A (ja) 文書情報登録方式
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JP2575947B2 (ja) 文節切出し装置
JP2570784B2 (ja) 文書リーダ後処理装置
JPH0130173B2 (ja)
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
JP3109187B2 (ja) 形態素解析方式
JPH04195257A (ja) 文節切出し装置
JPH04191959A (ja) 文節切り出し装置
JPH11203281A (ja) 電子辞書検索装置及び電子辞書検索装置制御プログラムを記憶した媒体
JPH01281561A (ja) 日本文訂正候補文字抽出方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees