JPH04191959A - 文節切り出し装置 - Google Patents

文節切り出し装置

Info

Publication number
JPH04191959A
JPH04191959A JP2324937A JP32493790A JPH04191959A JP H04191959 A JPH04191959 A JP H04191959A JP 2324937 A JP2324937 A JP 2324937A JP 32493790 A JP32493790 A JP 32493790A JP H04191959 A JPH04191959 A JP H04191959A
Authority
JP
Japan
Prior art keywords
sentence
character
character type
code
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2324937A
Other languages
English (en)
Inventor
Shigeki Kuga
空閑 茂起
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2324937A priority Critical patent/JPH04191959A/ja
Publication of JPH04191959A publication Critical patent/JPH04191959A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (イ)産業上の利用分野 この発明は文節切り出し装置に関し、詳しくはワードプ
ロセッサ、翻訳装置、校正装置、データベースを利用す
る装置等のように言語処理を行う装置に好適な文節切り
出し装置に関する。
(ロ)従来の技術 文節区切りの情報が挿入されていない変換済みの日本語
文書から、例えば翻訳や校正のために文節を切り出すた
めには、従来、自立語辞書、付属語辞書、接辞辞書等の
辞書類と、それらの要素の接続関係を表すテーブル、文
法テーブル等のテーブル類をそれぞれ参照しながら文節
の切り出しを行っていた。
(ハ)発明が解決しようとする課題 このような、辞書類、テーブル類を利用する従来の文節
切り出し装置においては、(1)それらの辞書、テーブ
ルを蓄積するために大量の記憶装置が必要になる。(2
)辞書検索またはテーブル検索を行うために文節切り出
し処理の時間が長くなる。
(3)文節切り出しのための制御プログラムが複雑にな
る等の問題があった。
この発明は以上の事情を考慮してなされたもので、上記
問題を解消しうる文節切り出し装置を掛供する。
(ニ)課題を解決するための手段 第1図はこの発明の基本構成を明示するブロック図であ
る。同図において、この発明は、文章を蓄積する文章蓄
積手段1と、文章蓄積手段lから所望の文を読み出すた
めの指示を行う指示手段2と、指示された文を文意蓄積
手段1から読み出す読出手段3と、読み出した文につい
て1文字ずつ漢字、ひらがな、カタカナなどの字種を判
別するとともに句点を判別する字種判別手段4と、字種
判別手段4による判別結果を順次蓄積する判別結果蓄積
手段5と、判別結果蓄積手段5に蓄積された字種の変移
点、句点に基づいて、読み出しに文中に文節の切り出し
位置情報を挿入する切り出し位置挿入手段6と、切り出
し位置情報が挿入された文を記憶する記憶手段7と、切
り出し位置情報が挿入されε文を出力する出力手段8と
からなる文節切り出し装置である。
この発明における文節切り出し装置は、ワードプロセッ
サ、翻訳装置、校正装置、データベースを利用する装置
等に適用することができ、また、文章を音声出力する装
置においてら文節切り出し処理が必要なため、この発明
を適用することができる。
(ホ)作用 この発明に従えば、文章蓄積手段lに蓄積されている文
章から、切り出し処理の単位、例えば1文を切り出すと
、その文を構成する各文字の字種が字種判別手段4によ
って判別され、その判別結果が判別結果蓄積手段5に順
次蓄積される。次いで切り出し位置挿入手段6は、その
判別された字種列に対して、例えば仮名から漢字の変わ
り目に文節の切り出し位置を表す情報を挿入し、切り出
し位置情報が挿入された文を記憶手段7に記憶させ、そ
の結果を出力手段8に出力するよう作用する。
(へ)実施例 以下図に示す実施例に基づいてこの発明を詳述する。な
お、これによってこの発明は限定されるものではない。
第2図はこの発明をワードプロセッサに適用した第1の
実施例を示す構成図である。同図において9はワードプ
ロセッサ本体である。lOは文章蓄積手段としての文章
蓄積装置であり、外1記壇装置としての例えばフローt
ピーディスク、ハードディスク、あるいは内部記憶装置
としての例えばRAM、あるいはその他の蓄積装置とし
ての例えばデータベース等から構成することができ、か
な漢字交じり文からなる日本語文書が蓄積されている。
11は指示手段としてのキーボードであり、文章編集、
文章校正等を行うための文字入カキ−1各種の指示キー
等を備えており、文章を入力するとともに、文章蓄積装
置10から所望の文を読み出すための指示を入力する。
12はCPU13と共働する読出装置であり、キーボー
ド11にて指示された文を文章蓄積装置10から読み出
す。14はCPUl3と協働する字種判別装置であり、
文章蓄積装置10から読み出した文について、1文字ず
つ漢字、ひらがな、カタカナ等の字種を判別するととも
に、句点を判別する。15は判別結果蓄積手段および記
憶手段としての結果蓄積装置であり、RAMから構成さ
れ、字種判別装置I4による判別結果を順次蓄積すると
ともに、後述する切り出し位置挿入装置によって切り出
し位置情報が挿入された文を記憶する。切り出し位置挿
入装置16は、CPU13と協働し、結果蓄積装置15
に蓄積された字種の変移点、句点に基づいて、読み出し
73文中に文節の切り出し位置情報を挿入する。17は
出力制御部18を介してCPUl3と接続される出力手
段としての表示装置であり、CRTやLCD等のドブト
マトリクスタイブの表示装置から構成され、切り出し位
置情報が挿入された文を表示する。
このような構成において、例文「特許庁に出す特許をワ
ープロで作成し電子出願する。」を用い、第8図に示す
フローチャートにしたがって第1の実施例による文節切
り出し処理を説明する。
第3図は文章ファイル、その他のデータベース等か蓄積
された文章蓄積装置10から処理の単位に合わせて例え
ば1文を切り出し、結果蓄積装置15に蓄積し1こ状態
を示している。このように、例えば1文、1段落、1章
などのように、処理単位に合わせ、文章蓄積装置10か
ら所望の文が読み出されると(ステップ30)、その文
を構成している字種のコードが判別される(ステップ3
1)。
詳しくは、読み出された文の各文字にはJESコードな
どの固有の文字コードが割り当てられているため、その
文字コードを、第4図に示すコード判別テーブルの各条
件とを照合することにより、字種を判別する。条件にお
いてCCは字種判別対象の文字であり、&lとblは漢
字コードの先頭および終端を表し、a2とb2はひらが
なコードの先頭および終端を表し、a3とb3はカタカ
ナコードの先頭および終端を表し、a4は句点を表して
いる。
例文の字種を判別した結果を第5図に示す。ここに、「
漠」、「ひ」、「力」、「句」はそれぞれ漢字コード、
ひらがなコード、カタカナコード、句点コードであるこ
とを示す記号である。この判別結果は結果蓄積装置15
に蓄積される(ステップ32)。
次に蓄積された字種コードの内容を、第6図に示す切り
出し判別テーブルの判別点を参照することにより、文節
の切り出し位置を判別する(ステップ33)。すなわち
、(1)ひらがなから漢字への変移点でキーワードの切
れ目(文節の切れ目)を入れる。(2)ひらがなからカ
タカナへの変移点でキーワードの切れ目を入れる。(3
)句点の次ぎにキーワードの切れ目を入れる。
次いで、切り出し判別テーブルの処理にしたがって文節
の切れ目に切り出し記号、例えば「/」を挿入し、その
結果を結果蓄積装置15に蓄積する(ステップ34)。
そして切り出し記号が挿入された文を表示装置t7の画
面上に表示する。上記した文節切り出し処理によって得
られた結果を第7図に示す。
次いで終了条件がn、 oであれば、すなわち次ぎに文
節切り出しを行うべき文があれば、次の文を文章蓄積装
置10から読み出す処理を行い、また、蓄積する位置が
重複しないように制御を行う(ステップ35)。
ステップ35においてyes、すなわち、切り出し処理
を行う対象がなくなれば、必要とする情報を結果蓄積装
置15に蓄積し、処理を終了する(ステップ36)。
次に第2の実施例として、字種をデジタル値に変換した
結果を利用して文節を切り出す構成を第9図に基づいて
説明する。なお、第1図と同じ構成部分については同一
符号を付して説明を省略する。同図において、40はC
PU13と協働する字種デジタル化装置であり、字種判
別装置14による字種の判別結果としての漢字およびカ
タカナに対しては第1のコード、具体的には“H“を付
し、ひらがなおよび句点に対しては第2のコード、具体
的には“L”を付し、それにより字種判別結果を2種類
のコード“H”または“L”のいずれかに変換する。
結果蓄積装置41は、字種判別結果であるコード“H゛
、“L”の記号列を記憶する。切り出し位置挿入装置4
2は、コード“H”、“L”の変移点に基づいて、読み
出した文中に文節の切り出し位置情報を挿入する。
このような構成において、第2の実施例による文節切り
出し処理を、第1の実施例と同じ例文を用い%第13図
のフローチャートにしr二がって説明する。
例えば1文、1段落、1章などのように、処理単位に合
わせ、文章蓄積装置10から所望の文か読み出されると
(ステップ50)、字種コードが判別される(ステップ
51)。読み出された文の各文字にはJISコードなど
の固有の文字コードが割り当てられている1こめ、その
文字コードと第4図に示すコード判別表の各条件とを照
合することにより、字種が判別される。判別されfこ字
種コードは結果蓄積装置41に蓄積され(ステップ52
)、デジタル化が行われる(ステップ53)。
第10図に、判別された出力コードをデジタル化するた
めに参照されるコードデジタル化テーブルを示す。すな
わち、字種が漢字と判別されると“H”に変換され、ひ
らがなと判別されると“L”に変換され、同じくカタカ
ナは“Hoに、句は′″L°にそれぞれ変換される。コ
ードデジタル化テーブルとの照合により文をデジタル化
し1こ結果は、第11図に示す記号列にて結果蓄積装置
4Iに記憶される。なお、第11図においては説明上、
字種コードの判別結果も併せて示している。
次にデジタル化しrこ結果を、第12[Kに示す切り出
し判別テーブルと照合し、文節切り出し位置を判別する
(ステップ54)。切り出し位置の判別は、(1)デジ
タル出力における“L“と“H”の変移点でキーワード
(文節)の切れ目を入れる。(2)句点の次にキーワー
ドの切れ目を入れることにより判別される。
次に、切り出し判別テーブルとの照合による切り出し位
置の判別に基づいて切り出し記号、例えば「/」を挿入
し、切り出し記号が挿入された文を結果蓄積装置41に
蓄積する(ステップ55)。
上記処理により得られる結果は、第7図に示す表示内容
と同じである。
次いで終了条件がnoであれば、すなわち次ぎに文節切
り出しを行うべき文かあれば、次の文を文章蓄積装置1
0から読み出す処理、また、蓄積する位置が重複しない
ように制御を行う(ステップ56)。
ステップ56においてyes、すなわち、切り出し処理
を行う対象がなくなれば、必要とする情報を結果蓄積装
置41に蓄積し、処理を終了する(ステップ57)。
(ト)発明の効果 この発明によれば、(1)文節の切り出しを行う際に、
辞書を利用しないため装置のlII成を簡略化できる。
それにより、ワードプロセッサやオフィスコンピュータ
はもちろん、それ以外の小型機器、具体的には電子手帳
やプログラム機能付き電卓においてもこの発明を適用す
ることかできる。(2)文節切り出し処理、キーワード
検索処理を高速で行うことができる。(3)文節切り出
しのための制御プログラムを簡単にすることができる。
(4)文節を切り出す場合、日本語ではベタ書きのため
、文節の位置がわからないという欠点があり、そのため
、文節をどこから始め、どこで終了するかを決定するの
に多大な処理と時間を必要としている。
二の発明によれば、文節位置を決定した後から言語処理
を行うことができるため、処理時間を大幅に短縮するこ
とができる。(5)字種判別結果をディジタル回路で2
値に置き換え1こ場合、処理が高速になり、回路が簡略
化され、かつ文節切り出し装置を安価で実現することが
できる。
【図面の簡単な説明】
第1図はこの発明の基本構成を明示するブロック図、第
2図はこの発明の第1の実施例であるワードプロセッサ
の構成を示すブロック図、第3図は文章蓄積装置に蓄積
され几文の一例を示す説明図、第4図は字種判別テーブ
ルの内容を示す説明図、第5図は字種判別結果を示す説
明図、第6図は切り出し判別テーブルの内容を示す説明
図、第7図は切り出し結果を示す説明図、第8図は第1
の実施例による文節切り出し処理を示すフローチャート
、第9図は第2の実施例であるワードプロセッサの構成
を示すブロック図、第10図は同じくコードデジタル化
テーブルの内容を示す説明図、第1工図は字種判別され
た結果を示す説明図、第12図は切り出し判別テーブル
の内容を示す説明図、第13図は同しく文節切り出し処
理を示すフローチャートである。 ■・・・・・文章蓄積手段、2・・・・・・指示手段、
3  ・読出手段、   4・・ 字種判別手段、5・
・・・・判別結果蓄積手段、 6・ ・・・切り出し位置挿入手段、 7・・・・・記憶手段、   8・・・・・・出力手段
。 第3図 第4図 第5図 第8図 第10図 第11図 第12図 第13図

Claims (1)

  1. 【特許請求の範囲】 1、文章を蓄積する文章蓄積手段と、 文章蓄積手段から所望の文を読み出すための指示を行う
    指示手段と、 指示された文を文章蓄積手段から読み出す読出手段と、 読み出した文について1文字ずつ漢字、ひらがな、カタ
    カナなどの字種を判別するとともに句点を判別する字種
    判別手段と、 字種判別手段による判別結果を順次蓄積する判別結果蓄
    積手段と、 判別結果蓄積手段に蓄積された字種の変移点、句点に基
    づいて、読み出した文中に文節の切り出し位置情報を挿
    入する切り出し位置挿入手段と、切り出し位置情報が挿
    入された文を記憶する記憶手段と、 切り出し位置情報が挿入された文を出力する出力手段と
    からなる文節切り出し装置。 2、前記字種の変移点が、ひらがなから漢字へ変移する
    位置と、ひらがなからカタカナへ変移する位置である請
    求項1記載の文節切り出し装置。 3、請求項1記載の文節切り出し装置が、字種判別結果
    の漢字およびカタカナを第1のコードに変換し、ひらが
    なおよび句点を第2のコードに変換し、それにより字種
    判別結果を2値化するデジタル化手段をさらに備え、前
    記判別結果蓄積手段が、2値化されたコードを記憶する
    手段を備え、前記切り出し位置挿入手段が、2値化され
    たコードの変移点および句点位置に基づいて、読み出し
    た文中に文節の切り出し位置情報を挿入する手段を備え
    てなる文節切り出し装置。
JP2324937A 1990-11-26 1990-11-26 文節切り出し装置 Pending JPH04191959A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2324937A JPH04191959A (ja) 1990-11-26 1990-11-26 文節切り出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2324937A JPH04191959A (ja) 1990-11-26 1990-11-26 文節切り出し装置

Publications (1)

Publication Number Publication Date
JPH04191959A true JPH04191959A (ja) 1992-07-10

Family

ID=18171287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2324937A Pending JPH04191959A (ja) 1990-11-26 1990-11-26 文節切り出し装置

Country Status (1)

Country Link
JP (1) JPH04191959A (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62257570A (ja) * 1986-05-01 1987-11-10 Hitachi Ltd 仮名漢字変換装置
JPH01266670A (ja) * 1988-04-18 1989-10-24 Nippon Telegr & Teleph Corp <Ntt> 日本語対象文固有用語抽出処理装置
JPH01295369A (ja) * 1988-05-24 1989-11-29 Hitachi Ltd 漢字仮名混じり文節分割処理方式

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62257570A (ja) * 1986-05-01 1987-11-10 Hitachi Ltd 仮名漢字変換装置
JPH01266670A (ja) * 1988-04-18 1989-10-24 Nippon Telegr & Teleph Corp <Ntt> 日本語対象文固有用語抽出処理装置
JPH01295369A (ja) * 1988-05-24 1989-11-29 Hitachi Ltd 漢字仮名混じり文節分割処理方式

Similar Documents

Publication Publication Date Title
EP0686286B1 (en) Text input transliteration system
US7802184B1 (en) Method and apparatus for processing text and character data
EP2312460A1 (en) Information processing device and information processing method
US20030083862A1 (en) Method for extracting name entities and jargon terms using a suffix tree data structure
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JPH08314910A (ja) 異種コード文字列転記装置および電子辞書
JPS61248160A (ja) 文書情報登録方式
JP2943791B2 (ja) 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体
US20040139056A1 (en) Information display control apparatus and recording medium having recorded information display control program
JPH04191959A (ja) 文節切り出し装置
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JP2621999B2 (ja) 文書処理装置
JP3377942B2 (ja) 電子辞書検索装置および電子辞書検索装置制御用プログラムを記憶したコンピュータ読取可能な記憶媒体
JP2592995B2 (ja) 文節切出し装置
JP2592993B2 (ja) 文節切り出し装置
JP3814000B2 (ja) 文字列変換装置および文字列変換方法
JP2575947B2 (ja) 文節切出し装置
JPH1021262A (ja) 情報検索装置
JP3241854B2 (ja) 単語スペル自動補正装置
JP2570784B2 (ja) 文書リーダ後処理装置
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JPH0612453A (ja) 未知語抽出登録装置
JP3233283B2 (ja) 日本文文章解析装置
JP2729342B2 (ja) 仮名漢字変換方法および装置
JPH01281561A (ja) 日本文訂正候補文字抽出方法