JPH09259148A

JPH09259148A - 符号照合装置及び符合照合方法

Info

Publication number: JPH09259148A
Application number: JP8090030A
Authority: JP
Inventors: Yuji Kato; 雄二加藤
Original assignee: Individual
Current assignee: Individual
Priority date: 1996-03-19
Filing date: 1996-03-19
Publication date: 1997-10-03
Anticipated expiration: 2016-03-19
Also published as: JP4044158B2

Abstract

(57)【要約】【解決手段】特許出願明細書のような文書１の中から、
コンピュータを用いて、指定された全ての符号を探索し
て、各符号ごとに、その位置を表すデータと、その符号
に隣接する一定の長さの文字列を自動的に抽出する。さ
らに、抽出結果を符号順にソートして表示部１１に表示
する。【効果】抽出した文字列には符号を付した単語が含ま
れ、これが並べて表示されるから、符号付けミスや単語
の表現の違いを容易に検査できる。こうして、処理対象
文書の点検作業を自動化できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、特許出願明細書の
ような文書中から、符号付きの文字列を自動的に抽出し
て、符号付けミス等を点検するための出力を得る符号照
合装置に関する。

【０００２】

【従来の技術】例えば特許出願明細書では、図面に記載
された装置の各部品に連続番号のような符号をつけて、
その符号を引用しながら、その装置の動作説明等を行
う。しかし、説明をすべき装置の部品点数や図面枚数が
増えると、符号も多種類となって、重複して別々の部品
に同一の符号をつけたり、同一の部品を参照するときは
同一の符号をつけるべきところを符号を付け間違えたり
する。前者の例としては、「ボルト１５とナット１５と
は、・・」といった表現になる。また、後者の例として
は、「この装置は車輪２３を備えている。この車輪２２
は車軸２５の両端に・・」といった表現になる。この他
に、同一の部品を呼ぶ場合に、その呼び方が一致しない
ことがある。例えば、「この接続装置２１は・・・・、
この連結装置２１と・・・」といった表現も、しばしば
見うけられる。こういった表現があると、読むものは意
味の把握に迷ったり、誤解したりして、権利解釈上の争
いを生じることもあり得る。

【０００３】そこで、明細書作成後は、明細書作成者が
丹念に点検を行い、その点検により例えば、「連結装置
２１」が「接続装置２１」に訂正される。従って、この
種のミスを防止するために、明細書作成担当者は、タイ
プアップされた原稿を何度も注意深く点検し、修正する
作業を繰り返すようにしている。

【０００４】

【発明が解決しようとする課題】このような符号付けミ
スは、明細書作成担当者が文章全体を丹念に点検すれ
ば、必ず発見できるが、人間の注意力には限界がある。
特に、長文の明細書であって、かなり離れた場所に符号
の重複や付け間違いがあるときには、それを発見するの
は容易でない。また、当初作成した明細書にその後各種
の追加修正を行ったような場合には、一挙に原稿を書き
上げた場合に比べて、こういったミスが生じやすい。例
えば、複数の者によって協力して明細書が作成されたよ
うな場合には、さらにミスが発生する率が高まる。

【０００５】しかし、特許出願後にこうしたミスを発見
してもその修正の機会は制限されており、また、出願発
明の要旨を左右するようなミスも皆無とはいえない。従
って、符号付けミスといえどもあなどることはできな
い。特許出願明細書に限らず、図面を参照しながら符号
を利用して説明を行う文書は少なくない。こうした文書
が大量に印刷された後にミスが発見されても、その修正
は容易でない。しかも、その正誤表を作成したり、その
他煩雑な手数が増加するという問題もある。

【０００６】これを解決するために、例えば、特定の単
語や特定の符号を指定して、全文を検索して点検するこ
とも考えられる。このような全文検索機能は、ワードプ
ロセッサやパーソナルコンピュータ用のアプリケーショ
ンプログラムの機能として良く知られている。しかし、
明細書中で使用されている符号全部についてこのような
検索処理を実行するのは、入力に手間がかかり、作業性
が悪く、現実的でない。また、符号の付け間違いや単語
自体を別の表現にしたような場合、正しい符号や単語を
用いて検索しても抽出はされないから、ミスを発見でき
ない。従って、文書中で使用した単語の前後に付加する
符号の付け間違いをできるだけ簡便に自動的に発見する
ことができるようなツールの開発が要望される。

【０００７】

【課題を解決するための手段】

〈構成１〉抽出する対象となる符号の種類を記憶して指
定する符号指定部と、処理対象となる文書を探索して、
その文書中の上記符号を抽出する符号抽出部と、この符
号に隣接して配置された文字列を抽出する隣接文字列抽
出部と、上記符号と符号の抽出位置と上記抽出文字列と
を一体に取り扱うレコードを、上記符号をキーとしてソ
ートするソート部と、ソートされたレコードに含まれ上
記符号に隣接して配置された一定長以下の文字列とその
符号と符号の抽出位置とを、ソートされたレコードの順
に表示出力する表示部とを備えたことを特徴とする符号
照合装置。

【０００８】〈説明〉抽出する対象となる符号には、数
字、アルファベット、記号等、任意のものが指定でき
る。指定の仕方は、特定の符号を直接指定してもよい
し、０〜９といった範囲を指定してもよい。即ち、処理
対象となる文書中で、他の文字と区別できるような任意
の文字が符号として指定できる。また、符号は１文字で
も２文字以上の組み合わせで構成されていてもよい。処
理対象となる文書のデータ形式は任意である。この文書
中には、符号を付加した多数の単語が使用されている。
この装置は、その単語を含む文字列をこれに付加した符
号とともに抽出する。ただし、単語自体を直接指定はし
ない。指定された符号を文中から全て抽出し、その符号
の前又は後ろに位置する一定長以下の文字列を自動的に
抽出することを特徴としている。

【０００９】これにより、符号とそれに付随している単
語は漏れなく抽出できるし、符号に直接隣接していなく
ても、その近くにある単語も無条件に抽出できる。な
お、符号として使用されているわけではない「図１
は、」等の数字も、符号と同時に抽出される。これは、
ノイズとして無視したり、一定の手法で排除する。符号
と符号の抽出位置と抽出文字列とを一体に取り扱うレコ
ードを符号をキーとしてソートするのは、これらのレコ
ードの全部または一部をソートされた順に表示するため
である。符号をキーとしてソートした結果を表示出力す
れば、同一符号を付加した文字列を近くに並べて、その
比較を行って文字列の不一致を発見できる。また、符号
を付加した単語以外の文字列を抽出して表示するのも、
文書中で該当する部分を探索し易くするためである。従
って、これらのレコードはデータそのものでも、抽出位
置等のデータをアクセスするポインタの集合であっても
よい。また、レコードを構成するデータの種類は任意で
ある。

【００１０】表示部は、ディスプレイやプリンタ等のよ
うにレコードに含まれるデータの内容を表示出力するこ
とができる任意の装置でよい。なお、表示出力する文字
列を一定長以下としたのは、表示出力した場合に、出力
用紙やディスプレイの画面上で各レコードを比較し易く
するためである。即ち、同一の符号を付加した文字列を
を比較するには、各文字列を１行ずつ並べて表示するこ
とが好ましいからである。また、一定長以下であるか
ら、それ以下の文字数の文字列を表示することは差し支
えない。文の頭の部分や短文ではごく短い文字列が抽出
され得るからである。抽出する最大文字列はメモリの許
す限り、自由に設定してよい。符号の抽出位置を表示出
力するデータに含めたのは、符号やその前後に付加する
文字列に誤りを発見した場合に、文書中で該当する部分
をすぐに探索できるようにするためである。従って、符
号の抽出位置を、例えば、「第１６段落第５文の第２文
字目」というように直接表示するほか、隣接する文字列
の位置等により間接的に表示してもよい。また、ディス
プレイ上に表示した符号をクリックすると処理対象文書
の該当位置が表示されるようなハイパーテキスト形式と
するのもよい。

【００１１】〈構成２〉構成１において、表示部が表示
出力する文字列の長さは、照合対象となる符号を付加し
た単語のうちの語長が最長のものを表示できる長さに選
定されることを特徴とする符号照合装置。〈説明〉任意の語長の単語に符号が付加されていると
き、全ての単語と符号との関係を表示出力させようとす
れば、最長の単語も表示できることが好ましい。そこ
で、表示出力する文字列の長さは、語長が最長のものを
表示できる長さに選定した。なお、単語自体を意識して
文字列を抽出するわけではないから、表示出力される文
字列の長さは一定以下である。

【００１２】〈構成３〉構成１において、表示出力する
一定長以下の文字列が、抽出した符号の前方のものか後
方のものかを選択するための、文字列位置選択部を備え
たことを特徴とする符号照合装置。〈説明〉「ねじ３」というように、文字列の後ろに符号
を付けることに決めていれば、符号の後方に隣接する文
字列の表示は不要である。しかも、符号の前方に隣接す
る文字列をできるだけ多く表示させたい。そんな場合に
は、必要な文字列のみを表示する。逆の場合も同様であ
る。そこで、一方のみを選択して表示出力できるように
した。

【００１３】〈構成４〉構成１において、符号抽出部
は、符号として指定された文字が２以上連続して配置さ
れているときはこれらを一組の符号として取り扱うこと
を特徴とする符号照合装置。〈説明〉符号は「ねじ２」とか「ボルト４」というよう
に一文字の場合もあるし、「ナット３５」とか「ビス４
０Ａ」というように２文字以上の場合もある。符号が連
続して配置されている限り、それが何文字でも一組の符
号として使用するのが一般的だから、このような処理を
した。これにより、予め、全ての符号を、その組み合わ
せまで指定しなくても、文中から１文字または２文字以
上を組み合わせた符号を自動的に抽出できる。

【００１４】〈構成５〉構成１において、ソート部は、
同一符号に隣接する各文字列を、それぞれその符号から
みた距離が近いものを基準にソートすることを特徴とす
る符号照合装置。〈説明〉符号として、例えば、数字の「２」が指定され
ているとき、「ボルト２」のみならず「図２」や「第２
の」といったノイズも抽出され、これらが出力に混在す
ると見にくくなる。そこで、符号に近い文字をキーとし
てソートして、符号に隣接している文字が同じものを近
くに並べるようにした。こうすれば、点検作業が容易に
なる。なお、ソート対象となる文字数は多いほど整理さ
れて見やすくなるが、ソート時間が長くなる。実用上
は、１〜２文字で十分である。

【００１５】〈構成６〉構成１において、ソート部は、
２種以上の性格の異なる文字を符号として指定した場
合、いずれか１種の文字を主キーに選定してソートし、
表示部には、主キーに選定した符号とその他の符号とを
区別して表示することを特徴とする符号照合装置。〈説明〉１Ａとか１２Ａといった数字と文字を組み合わ
せた符号は、数字のみを基準にソートして表示した方が
便利な場合がある。そこで、いずれか一種の文字即ちこ
の例では数字を主キーとしてソートする。なお、その他
の文字も従キーとしてソートするとよい。また、例えば
１Ａと１２Ａという符号を左詰めで並べて表示すると、
数字部分と英字部分との境界が不明確になり見にくい。
主キーに選定した符号を別の符号と区別するというの
は、例えば、表示欄を別にしたり、位置合わせにより、
表示位置を調整したりすることをいう。これで、表示さ
れたレコードの比較が容易になる。

【００１６】〈構成７〉処理対象となる文書と抽出する
対象となる符号の種類を予め指定し、上記処理対象とな
る文書を探索して、その文書中の符号を抽出するととも
に、抽出した各符号が符号をキーとしてソートした順番
に並ぶように、各符号と、その符号に隣接して配置され
た所定長以下の文字列と、その符号の抽出位置とを対応
させて表示することを特徴とする、コンピュータを利用
した符号照合方法。〈説明〉コンピュータを用いて文書中の符号を抽出しそ
の結果を見やすく表示するためには、このような方法が
適する。各符号が符号をキーとしてソートした順番に並
ぶようにしたのは、同一符号の付いた文字列を比較し易
くするためである。対応させて表示するというのは、表
示位置を対応させることをいい、これも、コンピュータ
の出力した文字列や符号を相互に比較し易くするためで
ある。

【００１７】

【発明の実施の形態】以下、本発明の実施の形態を、具
体例を用いて詳細に説明する。〈符号照合装置の概略〉図１は、本発明の符号照合装置
の具体例を示すブロック図である。本発明の装置は、例
えば、テキストデータにより作成された特許出願明細書
を読み込んで処理し、ディスプレイ等にこの図に示すよ
うな出力を得るコンピュータにより構成される。図に示
す処理対象となる文書１は、例えばフロッピーディスク
やハードディスクに格納された文書データである。この
例では、特許出願明細書の文書データの一部を図示して
いる。この文書は例えばテキストデータ形式で格納され
ている。また、処理結果は表示部１１に表示される。表
示部１１は、コンピュータのディスプレイやプリンタ等
から構成される。

【００１８】この文書１の処理を行うために、コンピュ
ータの制御部は、符号抽出部３、隣接文字列抽出部４、
バッファメモリ５、ソート部６、符号指定部７及び文字
列位置選択部８という機能ブロックを備える。この図に
示したような各機能ブロックは、後で説明するような手
順を実行する符号照合プログラムを一般のコンピュータ
上で実行させる際に、所定のタイミングで生成される。

【００１９】符号抽出部３は、処理対象となる文書１を
構成する文字を１文字ずつ検査して、符号として指定さ
れた文字を探索して抽出する機能をもつ。符号指定部７
は、抽出すべき符号の種類を指定する機能を持ち、この
例では、数字を符号と指定している。数字以外には、例
えば、英字や「−」等を指定できる。隣接文字列抽出部
４は、こうして抽出された符号の前方あるいは後方に隣
接した文字列を所定長抽出する処理を行う機能を持つ。
なお前方の文字列を抽出するか後方の文字列を抽出する
か、あるいは両方の文字列を抽出するかは、文字列位置
選択部８の指定による。例えばこの例では、前方の文字
列のみを抽出するように指定している。バッファメモリ
５は、抽出された符号と隣接する文字列及びその符号の
抽出位置を示すデータを組み合わせたレコードを、抽出
順に一時格納しておくための記憶領域である。

【００２０】ソート部６は、こうして抽出されたレコー
ドのソートを行い、符号順に配列して出力する部分であ
る。なお、レコードというのは、表示部１１に示した表
の中の１行に含まれるデータのことである。このような
レコードは抽出された全ての符号について１個ずつ生成
される。これらのレコードが符号順にソートされると、
図１の表示部１１に示したとおりの出力結果が得られ
る。

【００２１】なお、上記各機能を実現するプログラム言
語は、例えばベーシックにより記述することができる。
例えば、オープンしたファイルを１文ずつ読み込むの
は、「ＬＩＮＥＩＮＰＵＴ」命令、その中から指定さ
れた符号の位置を検出するのは「ＩＮＳＴＲ」命令、指
定した位置から指定した数だけ文字列を抽出するのは
「ＭＩＤ」命令により記述することができる。バッファ
メモリは、抽出された符号と隣接する文字列及びその符
号の抽出位置を示すデータを要素とするレコードをＤＩ
Ｍ命令を用いて定義して保存する。このときソートキー
となるデータをレコード中に含めておけば、あとからそ
のキー順にソートして出力することができる。

【００２２】〈符号照合処理の概要〉図２には、処理対
象文書の構造説明図を示す。この図２及び図３を用い
て、処理対象文書から符号を抽出する方法の概要を説明
する。この図は図１に示した処理対象の文書１の構造を
詳細に示しており、特許出願明細書の一部を表す。一般
に特許出願明細書は、段落番号により段落ごとに区切ら
れている。この例では、段落番号の次の文を第１文、そ
の次の文を第２文というように数えて、符号の抽出位置
の表示方法を定義している。各文は改行により区切られ
ている。ここで、例えば第２文中の「ボルト１２」とい
う部分の「１２」を符号として抽出したとする。「１
２」は「ボルト」という単語に付加された符号である。
このとき、その抽出位置及びその符号の直前の例えば１
５文字の文字列が合わせて抽出される。

【００２３】文字列は「２枚の板１０と１１とは、ボル
ト」となり、符号は「１２」、符号抽出位置は「１８
（段落）」「２（文）」「２３（文字目）」となる。こ
れらのデータによって、図に示すようなレコード１５が
生成される。処理対象の文書は必ずしもこういった構造
でなくてよく、もし段落番号に相当するものがない場合
には、第何ページの第何行目といった表現により抽出位
置を表せばよい。こうして、図１に示した表示部１１に
は、符号とその符号を付加した単語だけでなく、その単
語を含む一定文字数以下の文字列や抽出位置が表示され
る。もし、この出力により、符号やその前方の文字列の
表現に誤りが発見された場合には、符号抽出位置を参照
して、処理対象の文書の該当箇所を調べ、正しい表現に
修正する。符号抽出位置と符号の前方の文字列とは、共
に、該当箇所を探す作業に有効に利用される。前後の関
係がわかるから、文字列が長いほど該当箇所が見つけや
すい。

【００２４】図３には、抽出直後のデータの内容説明図
を示す。図２に示したような要領で、処理対象となった
文書の符号を探索し、各符号について上記のようなレコ
ードを順に生成していくと、この図３に示すような順番
に１行ずつレコードが並ぶ。この順は、符号の抽出順で
あるから、同一の符号を付加した単語であっても列方向
に見たとき全くばらばらに並ぶ。これでは、同一の単語
に同一の符号を付加しているかどうかを見比べるのに不
便である。そこで、本発明では、符号順にこのレコード
をソートして、図１に示すように整理して抽出結果を表
示するようにしている。

【００２５】〈符号付けミスの発見方法〉図４には、符
号付けミスの例説明図を示す。上記のような出力を得る
と、この例に示すような各種の符号付けミスを容易に発
見できる。この出力は、図１や図２等で示したものとは
別の文書について処理した例を示したものである。例え
ばここには図に示すように、符号「１２」を付加した文
字列が上から４レコード分表示されている。これを見る
と、「ボルト１２」とすべきところを「ポルト１２」と
したり、「ボルヨ１２」としたりして、いずれもタイプ
ミスをしていることがよく分かる。特許出願明細書を通
読しながらこういったミスを探しても、注意深く字を確
認していかないとうっかり見落とす場合も多い。しかし
ながら、本発明のように符号とその前方の文字列とを上
下に対応させて並べて表示すれば、ささいなミスも発見
し易い。

【００２６】また、次の４行分の出力で符号「２０」の
前方の文字列を比較すると、「制御部」「主制御部」
「制御装置」というように、同一部分を様々な言い方で
表現していることがわかる。長文の明細書になると、こ
うした表現の不一致を犯すことは少なくない。本人は同
一物を指しているつもりでも、第３者が読むと別の物を
指しているように読み取れるため、表現は統一したい。
しかしながら、これも、長文明細書の場合には、点検の
際に気が付きにくい。本発明によれば、これが容易に発
見できる。

【００２７】また、その次の４行分の出力から、符号
「２５」を付加した単語は「接合部」ということが分か
る。しかし、「接合部２４」というように、符号付けミ
スを犯している。これは、この出力によって一目瞭然で
ある。また、「支柱２５」という表現が並んでいること
から、「支柱」という単語に符号を付け間違えたという
ことも容易に発見できる。ところで、本発明では符号を
付加した単語それ自体を直接指定することはしない。符
号の付いている単語の自体を予め全て指定する作業は大
変に手数がかかり、実用的でない。

【００２８】そこで、本発明では、符号の直前または直
後にある文字を自動的に一定数だけ切り取って表示す
る。こうすれば、この文字数以下の単語は、必ず抽出し
た文字列中に含まれる。抽出した文字列を比較すれば、
不要な文字との区別は容易である。また、同一符号を付
したとしても表現の異なる単語が一緒に抽出できる。

【００２９】しかも、実際に使用してみると、単語を抽
出する場合には、その前後の文字も表示されていたほう
が、他の部分との比較や本文中での探索等に便利である
という、予期しない効果が生じた。即ち、符号の付け間
違いや単語の表現の間違いは、同一の符号を付けた他の
部分との比較による。このとき、どの表現が正しいか前
後の文を参照して決めることもある。従って、前後の文
が抽出されていると、本文を参照しなくても、修正対象
を決定できる。また、符号と単語との間に誤って他の文
字が挿入されてしまったような場合にも分かりやすい。
また、修正対象が決まった後は、本文を取り出して修正
作業をするが、そのとき、修正対象を見つけ出す作業で
は、その単語の前後の文字が重要な手がかりになる。こ
れにより、長い文章中から速やかに修正箇所を見つける
ことができるのである。

【００３０】〈文書の修正処理全体の流れ〉この図によ
り本発明の装置による符号抽出処理全体の流れを説明す
る。図５は、本発明による文書修正処理のフローチャー
トである。図において、先ずステップＳ１で対象文書を
指定する。具体的には、特許出願明細書を電子化して格
納した文書フロッピーディスクをコンピュータにセット
してから、符号照合処理プログラムを起動して、対象文
書名を入力する。次のステップＳ２で、そのプログラム
の動作を開始させる。次のステップＳ３では、先に説明
した要領で符号抽出処理を実行する。このプログラムの
符号抽出処理の具体的な各ステップは、後で図６を用い
て説明する。

【００３１】ステップＳ４では、出力ファイルをオープ
ンする。この出力ファイルは、最終的に表示部１１に表
示出力するデータを格納するファイルである。ステップ
Ｓ５では、この出力ファイルに、符号抽出処理の結果を
書き出す。さらに、ステップＳ６では、出力ファイルを
ディスプレイに表示するか、プリンタで印刷するかを判
断している。どちらにするかは、利用者が指定する。そ
の選択に応じて、ステップＳ７ではディスプレイ表示を
し、ステップＳ８ではプリント出力をする。ここで、符
号照合プログラムは終了する。

【００３２】次のステップＳ９では、出力表示された内
容を利用者が見て、先に説明した要領で実際に符号付け
ミスを探索する。長文の明細書の場合には、かなり大量
の出力が表示されるが、前後の符号や文字列中に含まれ
る単語が一致しているかどうかを見比べていく作業は、
比較的スピーディに進む。こうして発見したミスはメモ
したり、またプリント出力された用紙中にマークをす
る。そして、処理対象となった文書をワードプロセッサ
等により呼び出して、該当箇所の修正をおこなう。

【００３３】〈符号抽出処理〉図６には、本発明の装置
の符号抽出処理動作フローチャートを示す。これは、図
５のステップＳ３の処理を具体化したものである。これ
が、本発明の符号照合プログラムの最も特徴的な処理を
行う部分である。先ずステップＳ１において、抽出対象
符号の指定を行う。抽出対象符号は例えば数字、アルフ
ァベット、ハイフンといったものである。これは、利用
者がプログラム実行のつど指定してもよいが、予めプロ
グラム中で指定しておき、必要に応じて利用者が選択す
るようにしてもよい。通常は同一利用者の使用する符号
の種類はほぼ一定だからである。

【００３４】次のステップＳ２において、図５のステッ
プＳ１で指定された処理対象文書がオープンされる。さ
らにステップＳ３で出力バッファ領域が指定される。先
に説明したように、処理対象文書の符号を探索して生成
した多数のレコードは、後からまとめてソートされる。
そこで、ソート処理まで、生成したレコードを一時保存
するために、この出力バッファ領域が確保される。

【００３５】ステップＳ４では、処理対象文書から１文
を読み、ステップＳ５で符号検出が行われる。テキスト
データでは、文書を構成する各文は改行により区分され
ている。この文を１文ずつ読み取り、その先頭の文字か
ら順に１文字ずつ、指定された符号に該当するかどうか
を判断する。符号が検出されると、その符号をメモリに
保持して、次の文字が符号かどうかを調べる。符号に該
当する文字が連続していれば連続する全ての文字をひと
かたまりの符号と判断する。従って、符号でない文字が
検出されるまで、この処理を繰り返し、符号でない文字
が検出されるとこれまでメモリに保持していたいくつか
の文字を符号として抽出する（ステップＳ６）。ステッ
プＳ７では、符号の位置データを抽出する。これは、例
えば符号を構成する幾つかの文字のうちの先頭の文字の
位置とする。

【００３６】次に、ステップＳ８で、符号の前方あるい
は後方の文字列をバッファに格納できる分だけ格納す
る。どの文字列を何文字抽出するかは、別途指定してお
く。ステップＳ９は、１文について全ての文字に対して
符号探索処理を実行したかどうかを判断して、ステップ
Ｓ５からステップＳ８のループ処理を繰り返す制御を行
う。ステップＳ１０では、処理対象の文書の全文につい
て、この符号探索処理を終了したかどうかを判断してス
テップＳ４からステップＳ９のループ処理を繰り返す制
御を行う。

【００３７】全文について、符号探索処理が終了する
と、ステップＳ１１でソートキーが指定される。このと
き、どのキーを主キーとし、どのキーを従キー即ち主キ
ーに準じてソートするキーとするか等が指定される。こ
の指定はそのつど行ってもよいが、プログラムで自動設
定しておくことが好ましい。同一の利用者が希望する出
力形式は通常一定だからである。その後、ステップＳ１
２で、出力バッファの内容が、指定されたキーについて
ソートされる。こうして、符号抽出処理の結果が図５の
ステップＳ５でオープンしたファイルに書き込まれる。

【００３８】〈ソートキー〉図７は、文字列をソートキ
ーに含めた効果の説明図を示す。これまで説明したよう
に本発明を利用するには、主たるソートキーは符号とな
るが、この他に、例えば符号の前方の文字列のうち符号
に最も近い文字１文字を従キーに指定すると、この図に
示すような効果が得られる。この図の（ａ）と（ｂ）に
は、対象文書中の符号「２」を付加した単語を含むいく
つかの文字列が表示されている。（ｂ）の各レコード
は、符号を主キーとし、その直前の１文字を従キーとし
ソートされている。従って、符号のみに着目してソート
した（ａ）の出力と比較すると、同一の語尾の単語が互
いに集中して並ぶように表示され、相互に文字列を比較
し易い配置となっている。なお、２文字以上を従キーと
すればさらに見やすくなるが、ソート時間が長くなる恐
れがあり、また、実用的にも、数文字で十分という結果
が得られている。

【００３９】〈異種の文字を含む符号〉図８には、異種
の文字から成る符号のソート方法説明図を示す。例えば
図に示すように、「１Ａ」とか「１２Ａ」というよう
に、数字と文字とを組み合わせた符号を使用することも
多い。このような符号を抽出してそのままソートする
と、例えば図の（ａ）に示すようになる。

【００４０】即ち、符号は数値データではなく文字デー
タであるから、通常この図に示すようにバッファに左詰
めで格納される。従ってそのままソートすると、この
（ａ）の右側に示すように、「１２Ａ」が「１Ａ」の前
になるように並べられて出力される。しかし、一般に
は、符号を数字順に使用し、文字はその数字の添え字の
ように補助的に使用されるから、ソート結果も数字順に
並ぶことが好ましい。そこで、本発明の装置は、図の
（ｂ）に示すように、いったん抽出した符号をバッファ
内でその文字種の境界が揃うように位置合わせする。こ
うして位置合わせをした後ソートすると、図の（ｂ）の
右側に示したように、数字順でかつ英字順に符号が並
ぶ。また、文字種の境界が揃うように位置合わせしたの
で、符号同士の比較も容易である。

【００４１】（ｃ）の例は、「１１」「３」といった符
号の他に、「１−１」といった符号を混ぜて使用した例
を示す。この場合にも「−」の右側の数字は添え字的な
使い方であり、「−」の左側の数字順にソートすること
が好ましい。そこで、図の（ｄ）に示すように位置合わ
せをしてからソートし、左側の数字を主キーとし、その
他の文字を従キーとなるようにした。これにより、文字
列と符号とを比較し易い出力が得られる。

【００４２】〈符号抽出条件〉図９には、抽出条件の説
明図を示す。本発明によれば、文字列や符号の抽出条件
を選択することにより様々な利用形態が考えられる。符
号を「数字」とか「英字」というように指定すると、極
めて簡潔に一括指定ができる。一方、例えば、全ての符
号でなく、そのうちの特定の符号のみを指定して処理を
おこなうと、特定の符号の前や後の文字列だけを文中か
ら抽出して比較し、文章の点検等を行うことができる。

【００４３】また、符号の前方の文字列を抽出して表示
するか後方の文字列を抽出して表示するか、あるいは両
方を抽出して表示するか、さらには、何文字を表示する
か等を指定できるようにしておけば、必要以上の文字列
表示を抑制したりして、より見やすい出力を得ることが
できる。また逆に、符号の前後の文字列をできるだけ沢
山表示したり、少し離れた部分の文字列を表示させて、
「１は制御装置である。」とか「３は車軸を支える軸受
けである。」といった表現の点検も可能にすることがで
きる。

【００４４】このほか、処理対象の文書点検後も、その
出力を利用して、文中で使用されている符号の種類や単
語を確認すれば、その文書に新たな文を追加するような
場合に、符号付けミスを防止できる。即ち、新しい単語
に対しては重複しない単語を選択し、すでに使用されて
いる単語に対しては同一の表現で同一の単語を間違いな
く使用できる。自分の書いた文書はもとより、他人の書
いた文書についてこのような加筆を行う作業ではその効
果が顕著である。また、本発明は、特許出願明細書のみ
ならず、符号を単語に付加して記述を行う各種の文書の
点検作業等に広く利用することができる。

【図面の簡単な説明】

【図１】本発明の符号照合装置の具体例を示すブロック
図である。

【図２】処理対象文書の構造説明図である。

【図３】抽出直後のデータの内容説明図である。

【図４】符号付けミスの例説明図である。

【図５】本発明による文書修正処理のフローチャートで
ある。

【図６】本発明の装置の符号抽出処理動作フローチャー
トである。

【図７】文字列をソートキーに含めた効果の説明図であ
る。

【図８】異種の文字から成る符号のソート方法説明図で
ある。

【図９】抽出条件の説明図である。

【符号の説明】

１処理対象となる文書３符号抽出部４隣接文字列抽出部５バッファメモリ６ソート部７符号指定部８文字列位置選択部１１表示部

Claims

【特許請求の範囲】

【請求項１】抽出する対象となる符号の種類を記憶し
て指定する符号指定部と、処理対象となる文書を探索して、その文書中の前記符号
を抽出する符号抽出部と、この符号に隣接して配置された文字列を抽出する隣接文
字列抽出部と、前記符号と符号の抽出位置と前記抽出文字列とを一体に
取り扱うレコードを、前記符号をキーとしてソートする
ソート部と、ソートされたレコードに含まれ前記符号に隣接して配置
された一定長以下の文字列とその符号と符号の抽出位置
とを、ソートされたレコードの順に表示出力する表示部
とを備えたことを特徴とする符号照合装置。
【請求項２】請求項１において、表示部が表示出力する文字列の長さは、照合対象となる
符号を付加した単語のうちの語長が最長のものを表示で
きる長さに選定されることを特徴とする符号照合装置。
【請求項３】請求項１において、表示出力する一定長以下の文字列が、抽出した符号の前
方のものか後方のものかを選択するための、文字列位置
選択部を備えたことを特徴とする符号照合装置。
【請求項４】請求項１において、符号抽出部は、符号として指定された文字が２以上連続
して配置されているときはこれらを一組の符号として取
り扱うことを特徴とする符号照合装置。
【請求項５】請求項１において、ソート部は、同一符号に隣接する各文字列を、それぞれ
その符号からみた距離が近いものを基準にソートするこ
とを特徴とする符号照合装置。
【請求項６】請求項１において、ソート部は、２種以上の性格の異なる文字を符号として
指定した場合、いずれか１種の文字を主キーに選定して
ソートし、表示部には、主キーに選定した符号とその他の符号とを
区別して表示することを特徴とする符号照合装置。
【請求項７】処理対象となる文書と抽出する対象とな
る符号の種類を予め指定し、前記処理対象となる文書を探索して、その文書中の符号
を抽出するとともに、抽出した各符号が符号をキーとしてソートした順番に並
ぶように、各符号と、その符号に隣接して配置された所定長以下の
文字列と、その符号の抽出位置とを対応させて表示する
ことを特徴とする、コンピュータを利用した符号照合方法。