JPH09259148A - 符号照合装置及び符合照合方法 - Google Patents

符号照合装置及び符合照合方法

Info

Publication number
JPH09259148A
JPH09259148A JP8090030A JP9003096A JPH09259148A JP H09259148 A JPH09259148 A JP H09259148A JP 8090030 A JP8090030 A JP 8090030A JP 9003096 A JP9003096 A JP 9003096A JP H09259148 A JPH09259148 A JP H09259148A
Authority
JP
Japan
Prior art keywords
code
character string
extracted
document
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8090030A
Other languages
English (en)
Other versions
JPH09259148A5 (ja
JP4044158B2 (ja
Inventor
Yuji Kato
雄二 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP09003096A priority Critical patent/JP4044158B2/ja
Publication of JPH09259148A publication Critical patent/JPH09259148A/ja
Publication of JPH09259148A5 publication Critical patent/JPH09259148A5/ja
Application granted granted Critical
Publication of JP4044158B2 publication Critical patent/JP4044158B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【解決手段】特許出願明細書のような文書1の中から、
コンピュータを用いて、指定された全ての符号を探索し
て、各符号ごとに、その位置を表すデータと、その符号
に隣接する一定の長さの文字列を自動的に抽出する。さ
らに、抽出結果を符号順にソートして表示部11に表示
する。 【効果】抽出した文字列には符号を付した単語が含ま
れ、これが並べて表示されるから、符号付けミスや単語
の表現の違いを容易に検査できる。こうして、処理対象
文書の点検作業を自動化できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、特許出願明細書の
ような文書中から、符号付きの文字列を自動的に抽出し
て、符号付けミス等を点検するための出力を得る符号照
合装置に関する。
【0002】
【従来の技術】例えば特許出願明細書では、図面に記載
された装置の各部品に連続番号のような符号をつけて、
その符号を引用しながら、その装置の動作説明等を行
う。しかし、説明をすべき装置の部品点数や図面枚数が
増えると、符号も多種類となって、重複して別々の部品
に同一の符号をつけたり、同一の部品を参照するときは
同一の符号をつけるべきところを符号を付け間違えたり
する。前者の例としては、「ボルト15とナット15と
は、・・」といった表現になる。また、後者の例として
は、「この装置は車輪23を備えている。この車輪22
は車軸25の両端に・・」といった表現になる。この他
に、同一の部品を呼ぶ場合に、その呼び方が一致しない
ことがある。例えば、「この接続装置21は・・・・、
この連結装置21と・・・」といった表現も、しばしば
見うけられる。こういった表現があると、読むものは意
味の把握に迷ったり、誤解したりして、権利解釈上の争
いを生じることもあり得る。
【0003】そこで、明細書作成後は、明細書作成者が
丹念に点検を行い、その点検により例えば、「連結装置
21」が「接続装置21」に訂正される。従って、この
種のミスを防止するために、明細書作成担当者は、タイ
プアップされた原稿を何度も注意深く点検し、修正する
作業を繰り返すようにしている。
【0004】
【発明が解決しようとする課題】このような符号付けミ
スは、明細書作成担当者が文章全体を丹念に点検すれ
ば、必ず発見できるが、人間の注意力には限界がある。
特に、長文の明細書であって、かなり離れた場所に符号
の重複や付け間違いがあるときには、それを発見するの
は容易でない。また、当初作成した明細書にその後各種
の追加修正を行ったような場合には、一挙に原稿を書き
上げた場合に比べて、こういったミスが生じやすい。例
えば、複数の者によって協力して明細書が作成されたよ
うな場合には、さらにミスが発生する率が高まる。
【0005】しかし、特許出願後にこうしたミスを発見
してもその修正の機会は制限されており、また、出願発
明の要旨を左右するようなミスも皆無とはいえない。従
って、符号付けミスといえどもあなどることはできな
い。特許出願明細書に限らず、図面を参照しながら符号
を利用して説明を行う文書は少なくない。こうした文書
が大量に印刷された後にミスが発見されても、その修正
は容易でない。しかも、その正誤表を作成したり、その
他煩雑な手数が増加するという問題もある。
【0006】これを解決するために、例えば、特定の単
語や特定の符号を指定して、全文を検索して点検するこ
とも考えられる。このような全文検索機能は、ワードプ
ロセッサやパーソナルコンピュータ用のアプリケーショ
ンプログラムの機能として良く知られている。しかし、
明細書中で使用されている符号全部についてこのような
検索処理を実行するのは、入力に手間がかかり、作業性
が悪く、現実的でない。また、符号の付け間違いや単語
自体を別の表現にしたような場合、正しい符号や単語を
用いて検索しても抽出はされないから、ミスを発見でき
ない。従って、文書中で使用した単語の前後に付加する
符号の付け間違いをできるだけ簡便に自動的に発見する
ことができるようなツールの開発が要望される。
【0007】
【課題を解決するための手段】
〈構成1〉抽出する対象となる符号の種類を記憶して指
定する符号指定部と、処理対象となる文書を探索して、
その文書中の上記符号を抽出する符号抽出部と、この符
号に隣接して配置された文字列を抽出する隣接文字列抽
出部と、上記符号と符号の抽出位置と上記抽出文字列と
を一体に取り扱うレコードを、上記符号をキーとしてソ
ートするソート部と、ソートされたレコードに含まれ上
記符号に隣接して配置された一定長以下の文字列とその
符号と符号の抽出位置とを、ソートされたレコードの順
に表示出力する表示部とを備えたことを特徴とする符号
照合装置。
【0008】〈説明〉抽出する対象となる符号には、数
字、アルファベット、記号等、任意のものが指定でき
る。指定の仕方は、特定の符号を直接指定してもよい
し、0〜9といった範囲を指定してもよい。即ち、処理
対象となる文書中で、他の文字と区別できるような任意
の文字が符号として指定できる。また、符号は1文字で
も2文字以上の組み合わせで構成されていてもよい。処
理対象となる文書のデータ形式は任意である。この文書
中には、符号を付加した多数の単語が使用されている。
この装置は、その単語を含む文字列をこれに付加した符
号とともに抽出する。ただし、単語自体を直接指定はし
ない。指定された符号を文中から全て抽出し、その符号
の前又は後ろに位置する一定長以下の文字列を自動的に
抽出することを特徴としている。
【0009】これにより、符号とそれに付随している単
語は漏れなく抽出できるし、符号に直接隣接していなく
ても、その近くにある単語も無条件に抽出できる。な
お、符号として使用されているわけではない「図1
は、」等の数字も、符号と同時に抽出される。これは、
ノイズとして無視したり、一定の手法で排除する。符号
と符号の抽出位置と抽出文字列とを一体に取り扱うレコ
ードを符号をキーとしてソートするのは、これらのレコ
ードの全部または一部をソートされた順に表示するため
である。符号をキーとしてソートした結果を表示出力す
れば、同一符号を付加した文字列を近くに並べて、その
比較を行って文字列の不一致を発見できる。また、符号
を付加した単語以外の文字列を抽出して表示するのも、
文書中で該当する部分を探索し易くするためである。従
って、これらのレコードはデータそのものでも、抽出位
置等のデータをアクセスするポインタの集合であっても
よい。また、レコードを構成するデータの種類は任意で
ある。
【0010】表示部は、ディスプレイやプリンタ等のよ
うにレコードに含まれるデータの内容を表示出力するこ
とができる任意の装置でよい。なお、表示出力する文字
列を一定長以下としたのは、表示出力した場合に、出力
用紙やディスプレイの画面上で各レコードを比較し易く
するためである。即ち、同一の符号を付加した文字列を
を比較するには、各文字列を1行ずつ並べて表示するこ
とが好ましいからである。また、一定長以下であるか
ら、それ以下の文字数の文字列を表示することは差し支
えない。文の頭の部分や短文ではごく短い文字列が抽出
され得るからである。抽出する最大文字列はメモリの許
す限り、自由に設定してよい。符号の抽出位置を表示出
力するデータに含めたのは、符号やその前後に付加する
文字列に誤りを発見した場合に、文書中で該当する部分
をすぐに探索できるようにするためである。従って、符
号の抽出位置を、例えば、「第16段落第5文の第2文
字目」というように直接表示するほか、隣接する文字列
の位置等により間接的に表示してもよい。また、ディス
プレイ上に表示した符号をクリックすると処理対象文書
の該当位置が表示されるようなハイパーテキスト形式と
するのもよい。
【0011】〈構成2〉構成1において、表示部が表示
出力する文字列の長さは、照合対象となる符号を付加し
た単語のうちの語長が最長のものを表示できる長さに選
定されることを特徴とする符号照合装置。 〈説明〉任意の語長の単語に符号が付加されていると
き、全ての単語と符号との関係を表示出力させようとす
れば、最長の単語も表示できることが好ましい。そこ
で、表示出力する文字列の長さは、語長が最長のものを
表示できる長さに選定した。なお、単語自体を意識して
文字列を抽出するわけではないから、表示出力される文
字列の長さは一定以下である。
【0012】〈構成3〉構成1において、表示出力する
一定長以下の文字列が、抽出した符号の前方のものか後
方のものかを選択するための、文字列位置選択部を備え
たことを特徴とする符号照合装置。 〈説明〉「ねじ3」というように、文字列の後ろに符号
を付けることに決めていれば、符号の後方に隣接する文
字列の表示は不要である。しかも、符号の前方に隣接す
る文字列をできるだけ多く表示させたい。そんな場合に
は、必要な文字列のみを表示する。逆の場合も同様であ
る。そこで、一方のみを選択して表示出力できるように
した。
【0013】〈構成4〉構成1において、符号抽出部
は、符号として指定された文字が2以上連続して配置さ
れているときはこれらを一組の符号として取り扱うこと
を特徴とする符号照合装置。 〈説明〉符号は「ねじ2」とか「ボルト4」というよう
に一文字の場合もあるし、「ナット35」とか「ビス4
0A」というように2文字以上の場合もある。符号が連
続して配置されている限り、それが何文字でも一組の符
号として使用するのが一般的だから、このような処理を
した。これにより、予め、全ての符号を、その組み合わ
せまで指定しなくても、文中から1文字または2文字以
上を組み合わせた符号を自動的に抽出できる。
【0014】〈構成5〉構成1において、ソート部は、
同一符号に隣接する各文字列を、それぞれその符号から
みた距離が近いものを基準にソートすることを特徴とす
る符号照合装置。 〈説明〉符号として、例えば、数字の「2」が指定され
ているとき、「ボルト2」のみならず「図2」や「第2
の」といったノイズも抽出され、これらが出力に混在す
ると見にくくなる。そこで、符号に近い文字をキーとし
てソートして、符号に隣接している文字が同じものを近
くに並べるようにした。こうすれば、点検作業が容易に
なる。なお、ソート対象となる文字数は多いほど整理さ
れて見やすくなるが、ソート時間が長くなる。実用上
は、1〜2文字で十分である。
【0015】〈構成6〉構成1において、ソート部は、
2種以上の性格の異なる文字を符号として指定した場
合、いずれか1種の文字を主キーに選定してソートし、
表示部には、主キーに選定した符号とその他の符号とを
区別して表示することを特徴とする符号照合装置。 〈説明〉1Aとか12Aといった数字と文字を組み合わ
せた符号は、数字のみを基準にソートして表示した方が
便利な場合がある。そこで、いずれか一種の文字即ちこ
の例では数字を主キーとしてソートする。なお、その他
の文字も従キーとしてソートするとよい。また、例えば
1Aと12Aという符号を左詰めで並べて表示すると、
数字部分と英字部分との境界が不明確になり見にくい。
主キーに選定した符号を別の符号と区別するというの
は、例えば、表示欄を別にしたり、位置合わせにより、
表示位置を調整したりすることをいう。これで、表示さ
れたレコードの比較が容易になる。
【0016】〈構成7〉処理対象となる文書と抽出する
対象となる符号の種類を予め指定し、上記処理対象とな
る文書を探索して、その文書中の符号を抽出するととも
に、抽出した各符号が符号をキーとしてソートした順番
に並ぶように、各符号と、その符号に隣接して配置され
た所定長以下の文字列と、その符号の抽出位置とを対応
させて表示することを特徴とする、コンピュータを利用
した符号照合方法。 〈説明〉コンピュータを用いて文書中の符号を抽出しそ
の結果を見やすく表示するためには、このような方法が
適する。各符号が符号をキーとしてソートした順番に並
ぶようにしたのは、同一符号の付いた文字列を比較し易
くするためである。対応させて表示するというのは、表
示位置を対応させることをいい、これも、コンピュータ
の出力した文字列や符号を相互に比較し易くするためで
ある。
【0017】
【発明の実施の形態】以下、本発明の実施の形態を、具
体例を用いて詳細に説明する。 〈符号照合装置の概略〉図1は、本発明の符号照合装置
の具体例を示すブロック図である。本発明の装置は、例
えば、テキストデータにより作成された特許出願明細書
を読み込んで処理し、ディスプレイ等にこの図に示すよ
うな出力を得るコンピュータにより構成される。図に示
す処理対象となる文書1は、例えばフロッピーディスク
やハードディスクに格納された文書データである。この
例では、特許出願明細書の文書データの一部を図示して
いる。この文書は例えばテキストデータ形式で格納され
ている。また、処理結果は表示部11に表示される。表
示部11は、コンピュータのディスプレイやプリンタ等
から構成される。
【0018】この文書1の処理を行うために、コンピュ
ータの制御部は、符号抽出部3、隣接文字列抽出部4、
バッファメモリ5、ソート部6、符号指定部7及び文字
列位置選択部8という機能ブロックを備える。この図に
示したような各機能ブロックは、後で説明するような手
順を実行する符号照合プログラムを一般のコンピュータ
上で実行させる際に、所定のタイミングで生成される。
【0019】符号抽出部3は、処理対象となる文書1を
構成する文字を1文字ずつ検査して、符号として指定さ
れた文字を探索して抽出する機能をもつ。符号指定部7
は、抽出すべき符号の種類を指定する機能を持ち、この
例では、数字を符号と指定している。数字以外には、例
えば、英字や「−」等を指定できる。隣接文字列抽出部
4は、こうして抽出された符号の前方あるいは後方に隣
接した文字列を所定長抽出する処理を行う機能を持つ。
なお前方の文字列を抽出するか後方の文字列を抽出する
か、あるいは両方の文字列を抽出するかは、文字列位置
選択部8の指定による。例えばこの例では、前方の文字
列のみを抽出するように指定している。バッファメモリ
5は、抽出された符号と隣接する文字列及びその符号の
抽出位置を示すデータを組み合わせたレコードを、抽出
順に一時格納しておくための記憶領域である。
【0020】ソート部6は、こうして抽出されたレコー
ドのソートを行い、符号順に配列して出力する部分であ
る。なお、レコードというのは、表示部11に示した表
の中の1行に含まれるデータのことである。このような
レコードは抽出された全ての符号について1個ずつ生成
される。これらのレコードが符号順にソートされると、
図1の表示部11に示したとおりの出力結果が得られ
る。
【0021】なお、上記各機能を実現するプログラム言
語は、例えばベーシックにより記述することができる。
例えば、オープンしたファイルを1文ずつ読み込むの
は、「LINE INPUT」命令、その中から指定さ
れた符号の位置を検出するのは「INSTR」命令、指
定した位置から指定した数だけ文字列を抽出するのは
「MID」命令により記述することができる。バッファ
メモリは、抽出された符号と隣接する文字列及びその符
号の抽出位置を示すデータを要素とするレコードをDI
M命令を用いて定義して保存する。このときソートキー
となるデータをレコード中に含めておけば、あとからそ
のキー順にソートして出力することができる。
【0022】〈符号照合処理の概要〉図2には、処理対
象文書の構造説明図を示す。この図2及び図3を用い
て、処理対象文書から符号を抽出する方法の概要を説明
する。この図は図1に示した処理対象の文書1の構造を
詳細に示しており、特許出願明細書の一部を表す。一般
に特許出願明細書は、段落番号により段落ごとに区切ら
れている。この例では、段落番号の次の文を第1文、そ
の次の文を第2文というように数えて、符号の抽出位置
の表示方法を定義している。各文は改行により区切られ
ている。ここで、例えば第2文中の「ボルト12」とい
う部分の「12」を符号として抽出したとする。「1
2」は「ボルト」という単語に付加された符号である。
このとき、その抽出位置及びその符号の直前の例えば1
5文字の文字列が合わせて抽出される。
【0023】文字列は「2枚の板10と11とは、ボル
ト」となり、符号は「12」、符号抽出位置は「18
(段落)」「2(文)」「23(文字目)」となる。こ
れらのデータによって、図に示すようなレコード15が
生成される。処理対象の文書は必ずしもこういった構造
でなくてよく、もし段落番号に相当するものがない場合
には、第何ページの第何行目といった表現により抽出位
置を表せばよい。こうして、図1に示した表示部11に
は、符号とその符号を付加した単語だけでなく、その単
語を含む一定文字数以下の文字列や抽出位置が表示され
る。もし、この出力により、符号やその前方の文字列の
表現に誤りが発見された場合には、符号抽出位置を参照
して、処理対象の文書の該当箇所を調べ、正しい表現に
修正する。符号抽出位置と符号の前方の文字列とは、共
に、該当箇所を探す作業に有効に利用される。前後の関
係がわかるから、文字列が長いほど該当箇所が見つけや
すい。
【0024】図3には、抽出直後のデータの内容説明図
を示す。図2に示したような要領で、処理対象となった
文書の符号を探索し、各符号について上記のようなレコ
ードを順に生成していくと、この図3に示すような順番
に1行ずつレコードが並ぶ。この順は、符号の抽出順で
あるから、同一の符号を付加した単語であっても列方向
に見たとき全くばらばらに並ぶ。これでは、同一の単語
に同一の符号を付加しているかどうかを見比べるのに不
便である。そこで、本発明では、符号順にこのレコード
をソートして、図1に示すように整理して抽出結果を表
示するようにしている。
【0025】〈符号付けミスの発見方法〉図4には、符
号付けミスの例説明図を示す。上記のような出力を得る
と、この例に示すような各種の符号付けミスを容易に発
見できる。この出力は、図1や図2等で示したものとは
別の文書について処理した例を示したものである。例え
ばここには図に示すように、符号「12」を付加した文
字列が上から4レコード分表示されている。これを見る
と、「ボルト12」とすべきところを「ポルト12」と
したり、「ボルヨ12」としたりして、いずれもタイプ
ミスをしていることがよく分かる。特許出願明細書を通
読しながらこういったミスを探しても、注意深く字を確
認していかないとうっかり見落とす場合も多い。しかし
ながら、本発明のように符号とその前方の文字列とを上
下に対応させて並べて表示すれば、ささいなミスも発見
し易い。
【0026】また、次の4行分の出力で符号「20」の
前方の文字列を比較すると、「制御部」「主制御部」
「制御装置」というように、同一部分を様々な言い方で
表現していることがわかる。長文の明細書になると、こ
うした表現の不一致を犯すことは少なくない。本人は同
一物を指しているつもりでも、第3者が読むと別の物を
指しているように読み取れるため、表現は統一したい。
しかしながら、これも、長文明細書の場合には、点検の
際に気が付きにくい。本発明によれば、これが容易に発
見できる。
【0027】また、その次の4行分の出力から、符号
「25」を付加した単語は「接合部」ということが分か
る。しかし、「接合部24」というように、符号付けミ
スを犯している。これは、この出力によって一目瞭然で
ある。また、「支柱25」という表現が並んでいること
から、「支柱」という単語に符号を付け間違えたという
ことも容易に発見できる。ところで、本発明では符号を
付加した単語それ自体を直接指定することはしない。符
号の付いている単語の自体を予め全て指定する作業は大
変に手数がかかり、実用的でない。
【0028】そこで、本発明では、符号の直前または直
後にある文字を自動的に一定数だけ切り取って表示す
る。こうすれば、この文字数以下の単語は、必ず抽出し
た文字列中に含まれる。抽出した文字列を比較すれば、
不要な文字との区別は容易である。また、同一符号を付
したとしても表現の異なる単語が一緒に抽出できる。
【0029】しかも、実際に使用してみると、単語を抽
出する場合には、その前後の文字も表示されていたほう
が、他の部分との比較や本文中での探索等に便利である
という、予期しない効果が生じた。即ち、符号の付け間
違いや単語の表現の間違いは、同一の符号を付けた他の
部分との比較による。このとき、どの表現が正しいか前
後の文を参照して決めることもある。従って、前後の文
が抽出されていると、本文を参照しなくても、修正対象
を決定できる。また、符号と単語との間に誤って他の文
字が挿入されてしまったような場合にも分かりやすい。
また、修正対象が決まった後は、本文を取り出して修正
作業をするが、そのとき、修正対象を見つけ出す作業で
は、その単語の前後の文字が重要な手がかりになる。こ
れにより、長い文章中から速やかに修正箇所を見つける
ことができるのである。
【0030】〈文書の修正処理全体の流れ〉この図によ
り本発明の装置による符号抽出処理全体の流れを説明す
る。図5は、本発明による文書修正処理のフローチャー
トである。図において、先ずステップS1で対象文書を
指定する。具体的には、特許出願明細書を電子化して格
納した文書フロッピーディスクをコンピュータにセット
してから、符号照合処理プログラムを起動して、対象文
書名を入力する。次のステップS2で、そのプログラム
の動作を開始させる。次のステップS3では、先に説明
した要領で符号抽出処理を実行する。このプログラムの
符号抽出処理の具体的な各ステップは、後で図6を用い
て説明する。
【0031】ステップS4では、出力ファイルをオープ
ンする。この出力ファイルは、最終的に表示部11に表
示出力するデータを格納するファイルである。ステップ
S5では、この出力ファイルに、符号抽出処理の結果を
書き出す。さらに、ステップS6では、出力ファイルを
ディスプレイに表示するか、プリンタで印刷するかを判
断している。どちらにするかは、利用者が指定する。そ
の選択に応じて、ステップS7ではディスプレイ表示を
し、ステップS8ではプリント出力をする。ここで、符
号照合プログラムは終了する。
【0032】次のステップS9では、出力表示された内
容を利用者が見て、先に説明した要領で実際に符号付け
ミスを探索する。長文の明細書の場合には、かなり大量
の出力が表示されるが、前後の符号や文字列中に含まれ
る単語が一致しているかどうかを見比べていく作業は、
比較的スピーディに進む。こうして発見したミスはメモ
したり、またプリント出力された用紙中にマークをす
る。そして、処理対象となった文書をワードプロセッサ
等により呼び出して、該当箇所の修正をおこなう。
【0033】〈符号抽出処理〉図6には、本発明の装置
の符号抽出処理動作フローチャートを示す。これは、図
5のステップS3の処理を具体化したものである。これ
が、本発明の符号照合プログラムの最も特徴的な処理を
行う部分である。先ずステップS1において、抽出対象
符号の指定を行う。抽出対象符号は例えば数字、アルフ
ァベット、ハイフンといったものである。これは、利用
者がプログラム実行のつど指定してもよいが、予めプロ
グラム中で指定しておき、必要に応じて利用者が選択す
るようにしてもよい。通常は同一利用者の使用する符号
の種類はほぼ一定だからである。
【0034】次のステップS2において、図5のステッ
プS1で指定された処理対象文書がオープンされる。さ
らにステップS3で出力バッファ領域が指定される。先
に説明したように、処理対象文書の符号を探索して生成
した多数のレコードは、後からまとめてソートされる。
そこで、ソート処理まで、生成したレコードを一時保存
するために、この出力バッファ領域が確保される。
【0035】ステップS4では、処理対象文書から1文
を読み、ステップS5で符号検出が行われる。テキスト
データでは、文書を構成する各文は改行により区分され
ている。この文を1文ずつ読み取り、その先頭の文字か
ら順に1文字ずつ、指定された符号に該当するかどうか
を判断する。符号が検出されると、その符号をメモリに
保持して、次の文字が符号かどうかを調べる。符号に該
当する文字が連続していれば連続する全ての文字をひと
かたまりの符号と判断する。従って、符号でない文字が
検出されるまで、この処理を繰り返し、符号でない文字
が検出されるとこれまでメモリに保持していたいくつか
の文字を符号として抽出する(ステップS6)。ステッ
プS7では、符号の位置データを抽出する。これは、例
えば符号を構成する幾つかの文字のうちの先頭の文字の
位置とする。
【0036】次に、ステップS8で、符号の前方あるい
は後方の文字列をバッファに格納できる分だけ格納す
る。どの文字列を何文字抽出するかは、別途指定してお
く。ステップS9は、1文について全ての文字に対して
符号探索処理を実行したかどうかを判断して、ステップ
S5からステップS8のループ処理を繰り返す制御を行
う。ステップS10では、処理対象の文書の全文につい
て、この符号探索処理を終了したかどうかを判断してス
テップS4からステップS9のループ処理を繰り返す制
御を行う。
【0037】全文について、符号探索処理が終了する
と、ステップS11でソートキーが指定される。このと
き、どのキーを主キーとし、どのキーを従キー即ち主キ
ーに準じてソートするキーとするか等が指定される。こ
の指定はそのつど行ってもよいが、プログラムで自動設
定しておくことが好ましい。同一の利用者が希望する出
力形式は通常一定だからである。その後、ステップS1
2で、出力バッファの内容が、指定されたキーについて
ソートされる。こうして、符号抽出処理の結果が図5の
ステップS5でオープンしたファイルに書き込まれる。
【0038】〈ソートキー〉図7は、文字列をソートキ
ーに含めた効果の説明図を示す。これまで説明したよう
に本発明を利用するには、主たるソートキーは符号とな
るが、この他に、例えば符号の前方の文字列のうち符号
に最も近い文字1文字を従キーに指定すると、この図に
示すような効果が得られる。この図の(a)と(b)に
は、対象文書中の符号「2」を付加した単語を含むいく
つかの文字列が表示されている。(b)の各レコード
は、符号を主キーとし、その直前の1文字を従キーとし
ソートされている。従って、符号のみに着目してソート
した(a)の出力と比較すると、同一の語尾の単語が互
いに集中して並ぶように表示され、相互に文字列を比較
し易い配置となっている。なお、2文字以上を従キーと
すればさらに見やすくなるが、ソート時間が長くなる恐
れがあり、また、実用的にも、数文字で十分という結果
が得られている。
【0039】〈異種の文字を含む符号〉図8には、異種
の文字から成る符号のソート方法説明図を示す。例えば
図に示すように、「1A」とか「12A」というよう
に、数字と文字とを組み合わせた符号を使用することも
多い。このような符号を抽出してそのままソートする
と、例えば図の(a)に示すようになる。
【0040】即ち、符号は数値データではなく文字デー
タであるから、通常この図に示すようにバッファに左詰
めで格納される。従ってそのままソートすると、この
(a)の右側に示すように、「12A」が「1A」の前
になるように並べられて出力される。しかし、一般に
は、符号を数字順に使用し、文字はその数字の添え字の
ように補助的に使用されるから、ソート結果も数字順に
並ぶことが好ましい。そこで、本発明の装置は、図の
(b)に示すように、いったん抽出した符号をバッファ
内でその文字種の境界が揃うように位置合わせする。こ
うして位置合わせをした後ソートすると、図の(b)の
右側に示したように、数字順でかつ英字順に符号が並
ぶ。また、文字種の境界が揃うように位置合わせしたの
で、符号同士の比較も容易である。
【0041】(c)の例は、「11」「3」といった符
号の他に、「1−1」といった符号を混ぜて使用した例
を示す。この場合にも「−」の右側の数字は添え字的な
使い方であり、「−」の左側の数字順にソートすること
が好ましい。そこで、図の(d)に示すように位置合わ
せをしてからソートし、左側の数字を主キーとし、その
他の文字を従キーとなるようにした。これにより、文字
列と符号とを比較し易い出力が得られる。
【0042】〈符号抽出条件〉図9には、抽出条件の説
明図を示す。本発明によれば、文字列や符号の抽出条件
を選択することにより様々な利用形態が考えられる。符
号を「数字」とか「英字」というように指定すると、極
めて簡潔に一括指定ができる。一方、例えば、全ての符
号でなく、そのうちの特定の符号のみを指定して処理を
おこなうと、特定の符号の前や後の文字列だけを文中か
ら抽出して比較し、文章の点検等を行うことができる。
【0043】また、符号の前方の文字列を抽出して表示
するか後方の文字列を抽出して表示するか、あるいは両
方を抽出して表示するか、さらには、何文字を表示する
か等を指定できるようにしておけば、必要以上の文字列
表示を抑制したりして、より見やすい出力を得ることが
できる。また逆に、符号の前後の文字列をできるだけ沢
山表示したり、少し離れた部分の文字列を表示させて、
「1は制御装置である。」とか「3は車軸を支える軸受
けである。」といった表現の点検も可能にすることがで
きる。
【0044】このほか、処理対象の文書点検後も、その
出力を利用して、文中で使用されている符号の種類や単
語を確認すれば、その文書に新たな文を追加するような
場合に、符号付けミスを防止できる。即ち、新しい単語
に対しては重複しない単語を選択し、すでに使用されて
いる単語に対しては同一の表現で同一の単語を間違いな
く使用できる。自分の書いた文書はもとより、他人の書
いた文書についてこのような加筆を行う作業ではその効
果が顕著である。また、本発明は、特許出願明細書のみ
ならず、符号を単語に付加して記述を行う各種の文書の
点検作業等に広く利用することができる。
【図面の簡単な説明】
【図1】本発明の符号照合装置の具体例を示すブロック
図である。
【図2】処理対象文書の構造説明図である。
【図3】抽出直後のデータの内容説明図である。
【図4】符号付けミスの例説明図である。
【図5】本発明による文書修正処理のフローチャートで
ある。
【図6】本発明の装置の符号抽出処理動作フローチャー
トである。
【図7】文字列をソートキーに含めた効果の説明図であ
る。
【図8】異種の文字から成る符号のソート方法説明図で
ある。
【図9】抽出条件の説明図である。
【符号の説明】
1 処理対象となる文書 3 符号抽出部 4 隣接文字列抽出部 5 バッファメモリ 6 ソート部 7 符号指定部 8 文字列位置選択部 11 表示部

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 抽出する対象となる符号の種類を記憶し
    て指定する符号指定部と、 処理対象となる文書を探索して、その文書中の前記符号
    を抽出する符号抽出部と、 この符号に隣接して配置された文字列を抽出する隣接文
    字列抽出部と、 前記符号と符号の抽出位置と前記抽出文字列とを一体に
    取り扱うレコードを、前記符号をキーとしてソートする
    ソート部と、 ソートされたレコードに含まれ前記符号に隣接して配置
    された一定長以下の文字列とその符号と符号の抽出位置
    とを、ソートされたレコードの順に表示出力する表示部
    とを備えたことを特徴とする符号照合装置。
  2. 【請求項2】 請求項1において、 表示部が表示出力する文字列の長さは、照合対象となる
    符号を付加した単語のうちの語長が最長のものを表示で
    きる長さに選定されることを特徴とする符号照合装置。
  3. 【請求項3】請求項1において、 表示出力する一定長以下の文字列が、抽出した符号の前
    方のものか後方のものかを選択するための、文字列位置
    選択部を備えたことを特徴とする符号照合装置。
  4. 【請求項4】請求項1において、 符号抽出部は、符号として指定された文字が2以上連続
    して配置されているときはこれらを一組の符号として取
    り扱うことを特徴とする符号照合装置。
  5. 【請求項5】 請求項1において、 ソート部は、同一符号に隣接する各文字列を、それぞれ
    その符号からみた距離が近いものを基準にソートするこ
    とを特徴とする符号照合装置。
  6. 【請求項6】 請求項1において、 ソート部は、2種以上の性格の異なる文字を符号として
    指定した場合、いずれか1種の文字を主キーに選定して
    ソートし、 表示部には、主キーに選定した符号とその他の符号とを
    区別して表示することを特徴とする符号照合装置。
  7. 【請求項7】 処理対象となる文書と抽出する対象とな
    る符号の種類を予め指定し、 前記処理対象となる文書を探索して、その文書中の符号
    を抽出するとともに、 抽出した各符号が符号をキーとしてソートした順番に並
    ぶように、 各符号と、その符号に隣接して配置された所定長以下の
    文字列と、その符号の抽出位置とを対応させて表示する
    ことを特徴とする、 コンピュータを利用した符号照合方法。
JP09003096A 1996-03-19 1996-03-19 符号照合装置及び符合照合方法 Expired - Fee Related JP4044158B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09003096A JP4044158B2 (ja) 1996-03-19 1996-03-19 符号照合装置及び符合照合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09003096A JP4044158B2 (ja) 1996-03-19 1996-03-19 符号照合装置及び符合照合方法

Publications (3)

Publication Number Publication Date
JPH09259148A true JPH09259148A (ja) 1997-10-03
JPH09259148A5 JPH09259148A5 (ja) 2006-04-27
JP4044158B2 JP4044158B2 (ja) 2008-02-06

Family

ID=13987280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09003096A Expired - Fee Related JP4044158B2 (ja) 1996-03-19 1996-03-19 符号照合装置及び符合照合方法

Country Status (1)

Country Link
JP (1) JP4044158B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175294A (ja) * 2000-12-06 2002-06-21 Onda Techno:Kk 文書作成方法、記憶媒体及び文書作成装置
JP2002342312A (ja) * 2001-05-15 2002-11-29 Onda Techno:Kk 文書を作成するプログラム、記憶媒体、文書作成装置及び文書作成システム
CN101079023B (zh) 2003-01-24 2012-03-21 株式会社理光 字符串处理装置、字符串处理方法和成像装置
JP2017120529A (ja) * 2015-12-28 2017-07-06 セイコーエプソン株式会社 プログラム、情報処理装置、情報処理装置の制御方法、及び、情報処理システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175294A (ja) * 2000-12-06 2002-06-21 Onda Techno:Kk 文書作成方法、記憶媒体及び文書作成装置
JP2002342312A (ja) * 2001-05-15 2002-11-29 Onda Techno:Kk 文書を作成するプログラム、記憶媒体、文書作成装置及び文書作成システム
CN101079023B (zh) 2003-01-24 2012-03-21 株式会社理光 字符串处理装置、字符串处理方法和成像装置
JP2017120529A (ja) * 2015-12-28 2017-07-06 セイコーエプソン株式会社 プログラム、情報処理装置、情報処理装置の制御方法、及び、情報処理システム

Also Published As

Publication number Publication date
JP4044158B2 (ja) 2008-02-06

Similar Documents

Publication Publication Date Title
US20090187567A1 (en) System and method for determining valid citation patterns in electronic documents
JPH0793328A (ja) 綴り不適切訂正装置
JP4044158B2 (ja) 符号照合装置及び符合照合方法
JP2010134766A (ja) 文書データ処理装置およびそのプログラム
CN112364632B (zh) 图书校对方法和装置
JPH08115330A (ja) 類似文書検索方法および装置
JP2870375B2 (ja) 文章訂正装置
JP3928739B2 (ja) 文書ファイリングシステム
JP2776069B2 (ja) 文章検査装置
JP3355289B2 (ja) 文字データの自動校正方法及び装置
JPH09160907A (ja) 文書処理装置及び方法
JPH04104367A (ja) ファイルシステム
JPH03233669A (ja) 文書作成装置
JPS61285534A (ja) 索引作成方式
JPS62229461A (ja) 文書処理装置
JPH117492A (ja) キー入力編集方法及び編集装置
JP2004110483A (ja) 文書診断プログラム及び文書診断方法
JPH09138835A (ja) 文字認識装置
JPH03148752A (ja) 文書作成支援装置
CN117634476A (zh) 文档处理方法、装置、计算机设备及存储介质
JPH0222761A (ja) 辞書メモリ作成装置
JPH02158864A (ja) 文書作成装置
JPH06266765A (ja) 文章検索装置
JPH03176715A (ja) 文章入力装置
JPH04263355A (ja) カタカナ誤り検出装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060314

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060515

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060704

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060803

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060904

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060919

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20061208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071115

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111122

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121122

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131122

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees