JPH077417B2

JPH077417B2 - 文章検査装置

Info

Publication number: JPH077417B2
Application number: JP63256188A
Authority: JP
Inventors: 俊一福島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1988-10-11
Filing date: 1988-10-11
Publication date: 1995-01-30
Anticipated expiration: 2010-01-30
Also published as: JPH02103658A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は入力された文章から誤り箇所あるいは不適切箇
所を検出する文章検査装置に関する。

〔従来の技術〕

日本語文章の文体は常体（だ・である体）と敬語（です
・ます体、であります体、ございます体）とに分けるこ
とができる。例えば、次の（１）および（２）の文は常
体の文であり、（３）および（４）の文は敬体の文であ
る。

次の通りだ。 …（１）次の通りである。 …（２）次の通りです。 …（３）次の通りでございます。 …（４）一般に、ひとつの文章中で常体の文と敬体の文とが混在
することは好ましくない。そのような混在の検査は、
『日本語文章作成支援システムCOMET』（福島・他、電
子通信学会技術研究報告OS86−21、1986年）、および特
開昭61−229155号公報『日本語ワード・プロセッシング
方式』などで述べられている。その方式は文体（常体／
敬体）を特徴付ける表現を記憶する文体表現記憶手段を
用意し、文章中からこの文体表現記憶手段に記憶された
表現を検出すると同時に、検出された表現の数を常体と
敬体とに分けてカウントするというものである。常体と
敬体の数がともに１以上であれば、常体と敬体とが混在
していることになる。

〔発明が解決しようとする課題〕

文体に関する検査としては、従来の常体と敬体との混在
に関する検査だけでなく、敬体や常体が使用されている
位置に関する検査が必要である。

例えば、次の（５）は常体の文であり、（６），
（７），（８）はともに（５）に対する敬体の文であ
る。しかし、同じ敬体の文であっても、（６），
（７），（８）では文の途中の敬体の使用されている位
置・回数が異なる（下線部分が敬体を特徴付ける表現で
ある）。その結果、（５）＜（６）＜（７）＜（８）の
順の丁寧さが増している。

データは次に示した通りだが、安易に結論は出せない。
…（５）データは次に示した通りだが、安易に結論は出せませ
ん。 …（６）データは次に示した通りですが、安易に結論は出せませ
ん。 …（７）データは次に示しました通りですが、安易に結論は出せ
ません。 …（８）常体の文と敬体の文という区別だけでなく敬体の文に関
する様々な形が日本語では許されるが、作成する文章の
種類によっては好ましくない形が存在する。例えば、社
内文書を考えた場合、（８）は過度に丁寧であり避けた
い形である。

また、ひとつの文章中では常体の文または敬体の文に統
一されているだけでなく、敬体の文の場合の敬体の使用
法も統一されているべきである。例えば、次の（９）の
ような文章は敬体の使用法が不規則であり、日本語とし
て不自然である（下線部分が敬体を特徴付ける表現であ
る）。

超新星から届いたと考えられます素粒子のデータを収集
しました。そのデータは、次に示した通りだが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …（９）上記のような問題は敬体や常体を使用する位置に関する
検査を行えば解決することができる。例えば、分末（句
点の直前）と接続助詞「が」の直前では敬体を使用し、
他の位置では常体を使用するという条件を定めて検査す
るならば、（５）〜（８）については（５），（６），
（８）は不適切で（７）が適切であると判定される。同
様に、（９）は不適切であり、それに対して次の（10）
のような文章は適切であると判定されることになる（下
線部分が敬体を特徴付ける表現である）。

超新星から届いたと考えられる素粒子のデータを収集し
ました。そのデータは、次に示した通りですが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …（10）従来、このような敬体や常体の使用されている位置に関
する検査は、人間が行うしか方法がなかった。

本発明の目的は、敬体や常体の使用されている位置に関
する検査を行うことのできる文章検査装置を提供するこ
とである。また、基準となる文章を学習することによっ
て、敬体や常体を使用する位置に関する条件を容易に設
定できるようにしている。

〔課題を解決するための手段〕

本発明の文章検査装置は、入力された日本語文章から誤
り箇所あるいは不適切箇所を検出する文章検査装置にお
いて、文体を特徴付ける表現を記憶する文体表現記憶手
段と、前記日本語文章から前記文体表現記憶手段に記憶
された表現を検出する文体表現検出手段と、学習モード
と検査モードとを切り換える切り換え手段と、前記学習
モードにおいて前記文体表現検出手段の検出結果をもと
に前記文体を特徴付ける表現を使用する位置の条件を抽
出する位置条件学習手段と、前記位置条件学習手段によ
って抽出された条件を記憶する位置条件記憶手段と、前
記検査モードにおいて前記文体表現検出手段によって検
出された表現の位置が前記位置条件記憶手段に記憶され
た条件を満たすか否かを判定する位置条件判定手段とを
備えて構成される。

〔実施例〕

以下、本発明について図面を参照しながら説明する。

第１図は本発明による文章検査装置の第一の実施例の構
成を示すブロック図である。

同図において、文章入力手段１は日本語文章を入力す
る。かな漢字変換入力装置、ペンタッチ・キーボード、
文字認識装置などが用いられる。

文章記憶手段２は文章入力手段１によって入力された日
本語文章を文字コード列として記憶する。ICメモリ、磁
気ディスク装置、磁気テープ装置、光ディスク装置など
が用いられる。

文体表現記憶手段３は文体（常体／敬体）を特徴付ける
表現を記憶する。ICメモリ、磁気ディスク装置、磁気テ
ープ装置、光ディスク装置などが用いられる。第２図お
よび第３図は文体表現記憶手段３の内容の例である。第
２図では、常体を特徴付ける表現の文字列と敬体を特徴
付ける文字列の両方が、文体表現30の文字コード順に並
べて記憶されている。そして各表現には常体と敬体のい
ずれかを識別する情報である文体識別31が付加されてい
る。第３図では、常体を特徴付ける表現（ａ）と敬体を
特徴付ける表現（ｂ）とが分けて登録される。従って、
文字識別31は各々の表現には付与されていない。

文体表現検査手段４は文章記憶手段２に記憶された日本
語文章から文体表現記憶手段３に記憶された表現を検出
する。コンピュータのCPUなどが用いられる。この文体
表現検出手段４は文章記憶手段２に記憶された日本語文
章と文体表現記憶手段３に記憶された表現とを比較・照
合する処理を行ない、検出された表現の文章中の位置お
よび文体識別とを位置条件判別手段６および位置条件学
習手段９へ送る。

位置条件記憶手段５は文体（常体／敬体）を特徴付ける
表現を使用する位置に関する条件を記憶する。記憶する
条件は、切り換え手段10が学習モードを指定するとき
に、位置条件学習手段９によって書き込まれる。ICメモ
リ、磁気ディスク装置、磁気テープ装置、光ディスク装
置などが用いられる。第４図および第５図は位置条件記
憶手段の内容の例である。第４図の位置条件記憶手段５
は敬体を特徴付ける表現の直後に接続する表現の文字列
を登録する形で条件を表している。すなわち、敬体を特
徴付ける表現の直後は「。」「が、」「ので、」のいず
れかであり、常体を特徴付ける表現の直後は「。」
「が、」「ので、」以外であるという条件を表してい
る。第５図の位置条件記憶手段5aは文体識別50と条件種
別51と接続表現52から成っている。文体識別50は常態を
特徴付ける表現の位置に関する条件なのか、敬体を特徴
付ける表現の位置に関する条件なのかを示す。条件種別
51が「＋」の場合はその文体表現の直後に接続する表現
として接続表現52の部分の文字列を許すということを表
し、条件種別51が「−」の場合はその文体表現の直後に
接続する表現として接続表現52の部分の文字列を禁止す
るということを表す。この第５図は第４図と同様の条件
を表したものである。

切り換え手段10は学習モードと検査モードとを切り換え
る。キーボードの特定のキーとして実現してもよいし、
トグルスイッチとして実現してもよい。切り換え手段10
は学習モードが指定されているときには位置条件学習手
段９を起動し、検査モードが指定されているときには位
置条件判定手段６を起動する（位置条件学習手段９と位
置条件判定手段６とのいずれか一方のみを起動する）。

位置条件学習手段９は、学習モードが指定されていると
きに、文体表現検出手段４の検出結果をもとにして文体
（常体／敬体）を特徴付ける表現を使用する位置に関す
る条件を抽出する。コンピュータのCPUなどが用いられ
る。学習モードでは、文体の位置に関する条件を満たし
た基準となる文章が文章入力手段１から入力されるよう
にする。文体を特徴付ける表現を使用する位置に関する
条件の抽出方法位置条件記憶手段５に記憶する条件の記
述方法によって異なるが、第４図に示したような記述方
法の場合は、例えば文体表現検出手段４から敬体表現の
検出された位置を受け取り、その直後の文字列を句読点
まで抽出すればよい。第５図に示したような記述方法の
場合は、あらかじめ接続表現52として考えられるものと
文体種別（敬体／常体）50とを組み合わせたパターンに
ついて、条件種別51の値を「−」にした表（第５図の条
件種別51の値が「−」のもの）を用意しておく。そして
基準となる文章から文体表現検出手段４の検出した文体
表現の直後の文字列とその接続表現52の文字列とを照合
して、一致した接続表現と文字種別に対応する部分の条
件種別51に「＋」を書き込む。位置条件学習手段９はそ
れらの条件を位置条件記憶手段５に書き込む。

位置条件判定手段６は、検査モードが指定されていると
きに、文体表現検出手段４によって検出された表現の位
置が位置条件記憶手段５に記憶された条件を満たすか否
かを判定する。コンピュータのCPUなどが用いられる。
検査モード時には、検査の対象となる文章が入力される
ことになる。この位置条件判定手段６は、まず文体表現
検出手段４より文体（常体／敬体）を特徴付ける表現の
検出された位置を受け取る。そして次に、その文体に関
する条件を位置条件記憶手段５から読み込み、検出され
た表現の位置がその条件を満たすか否かを文章記憶手段
２に記憶された日本語文章を検索して判定する。この判
定処理の内容は位置条件記憶手段５における条件の記述
方法によって異なるものになるが、第４図に示したよう
な位置条件記憶手段５の場合は第６図のフローチャート
のような判定処理となる。なお、位置条件判定手段６は
検出された表現の位置と判定結果とを出力する。

また、文体表現検出手段４と位置条件判定手段６の動作
タイミングの制御方法としては、文体表現検出手段４が
文体を特徴付ける表現をひとつ検出するごとに位置条件
判定手段６の判定処理を行う方法と、文体表現検出手段
４が文体を特徴付ける表現を全て検出した後で位置条件
判定手段６の判定処理をまとめて行う方法がある。

次に上記の文章検査装置の動作を例を用いて説明する。
その際、文体表現記憶手段３の内容は第２図の例を用い
る。動作タイミングについては、文体表現検出手段４が
文体を特徴付ける表現を全て検出した後で、位置条件判
定手段６の判定処理をまとめて行う方法による。

まず、切り換え手段10が学習モードを指定したとする。
そして次のような基準となる文章（15）が入力されて文
章記憶手段２に記憶されているものとする。

今は晴れていますが、予報では雨ですので、傘が必要で
しょう。 …（15）そして文体表現検出手段４は文章記憶手段２に記憶され
た（15）の文章と文体表現記憶手段３に記憶された文字
列とを照合し、次のような文字列を、文字を特徴付ける
表現として検出する。［］内は検出された表現の位置
（文章の先頭からの文字数）、文体識別である。

います［６〜8,敬体］です［16〜17,敬体］でしょう［25〜28,敬体］この結果をもとに、位置条件学習手段９は文体を特徴付
ける表現を使用する位置に関する条件の抽出を行う。こ
こでは、上記の敬体表現の直後の文字列を句読点まで取
り出すことにより、第４図のような条件が位置条件記憶
手段５に書き込まれたものとする。

さて、ここで位置条件の設定は完了し、切り換え手段10
から検査モードが指定されたものとする。そして文章入
力手段１から前に示した（９）の例文が入力され、文章
記憶手段２に記憶されたものとする。そして、文体表現
検出手段４は、文章記憶手段２に記憶された（９）の文
章と文体表現記憶手段３に記憶された文字列とを照合
し、次のような文字列を文体を特徴付ける表現として検
出する。

いた［７〜8,常体］られます［12〜15,敬体］しました［26〜29,敬体］した［41〜42,常体］だ［45〜45,常体］せません［55〜58,敬体］います［75〜77,敬体］です［92〜93,敬体］すると、今度は検査モードなので、位置条件学習手段９
ではなく位置条件判定手段６が動作し、文体表現検出手
段４によって検出された表現の直後の文字列と位置条件
記憶手段５に記憶された文字列との比較を行い、第６図
のフローチャートに従った判定を行う。

具体的に説明すると、［７〜8,常体］に対しては、文章
の９文字目からの文字列「と考え………」は位置条件記
憶手段５に記憶された「。」「が、」「ので、」とは一
致しない。そして文体識別は常体なので、条件を満たす
と判定される。［12〜15,敬体］に対しては、文章の16
文字目からの文字列「素粒子の………」は位置条件記憶
手段５に記憶された「。」「が、」「ので、」とは一致
しない。そして文体識別は敬体なので、条件を満たさな
いと判定される。［26〜29,敬体］に対しては、文章の3
0文字目からの文字列「。その………」は位置条件記憶
手段５に記憶された「。」と一致する。そして文字識別
は敬体なので、条件を満たすと判定される。以下同様で
ある。

その結果、位置条件判定手段６から次にような情報が出
力される。

［７〜8,条件を満たす］［12〜15,条件を満たさない］［26〜29,条件を満たす］［41〜42,条件を満たす］［45〜45,条件を満たさない］［55〜58,条件を満たす］［75〜77,条件を満たす］［92〜93,条件を満たす］すなわち、（９）の文章に対して次の（11）の下線で示
した部分の文体がおかしいという結果が得られ、常体や
敬体の使用されている位置に関する検査が行われた。

超新星から届いたと考えられます素粒子のデータを収集
しました。そのデータは、次に示した通りだが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …（11）第１の下線の部分は「られる」となるべきであり、敬体
が過剰の箇所が検出されてい。第２の下線の部分は「で
す」となるべきであり、敬体が不足している部分が検出
されている。

ここで、文体表現記憶手段３に記憶しておく内容を制限
しておくことも考えられる。例えば、文体表現記憶手段
３に記憶しておく内容を第３図（ａ）のように常体を特
徴付ける表現のみとすることもできる。その場合には
（11）の第２の下線部分のような、敬体が不足している
箇所のみが検出される（敬体が過剰な箇所は検出されな
い）。逆に文体表現記憶手段３に記憶しておく内容を第
３図（ｂ）のように敬体を特徴付ける表現のみとした場
合には、（11）の第１の下線部分のような、敬体が過剰
な箇所のみが検出される（敬体が不足している箇所は検
出されない）。

また、文体表現記憶手段３に記憶しておく表現の文体識
別について、常体／敬体の２分類だけでなく３つ以上の
分類を用いることも可能である。第７図は常体／敬体1/
敬体２の３種類の文体識別を用いた文体表現記憶手段３
の内容の例である。第７図における文体識別が敬体２の
ものは「ございます体」といわれるものである。そして
文体識別の種類に応じて条件を細分化することも可能で
ある。第８図は第７図のような文体識別の種類に対応し
た、位置条件記憶手段5aの内容の例である。

第９図は本発明による文章検査装置の第二の実施例の構
成を示すブロック図である。この第二の実施例は前述の
第一の実施例に対して単語辞書記憶手段７と文章解析手
段８を加えたものである。

単語辞書記憶手段７は日本語の単語について少なくとも
表記と品詞とを登録した単語辞書を記憶する。ICメモ
リ、磁気ディスク装置、磁気テープ装置、光ディスク装
置などが用いられる。文章解析手段８は文章記憶手段２
に記憶された文章の解析を行う。コンピュータのCPUな
どが用いられる。

文章の解析は単語辞書記憶手段７に記憶された単語辞書
を参照して行い、その結果として文節・単語の単位や単
語の品詞などが得られる。この文章解析手段８と単語辞
書記憶手段７は公知の手段であり、例えば『国語辞書の
記憶と日本語文の自動分割』（長尾・他、「情報処理」
第19巻第６号、1978）のようにして実現できる。文章解
析手段８は文章記憶手段２に記憶された文章の解析結果
を再び文章記憶手段２に書き込むので、文章記憶手段２
には文章の文字コード列だけでなく文節・単語の単位や
単語の品詞の情報も記憶される。例えば文章解析の結
果、文（６）に対しては次の（12）のような内容が記憶
される。［］内は単語の品詞、／は文節の境界を表す。

データ［名詞］は［格助詞］／次［名詞］に［格助詞］
／示［動詞語幹］し［五段語尾連用形］た［助動詞
「た」連帯形］／通り［名詞］だ［助動詞「だ」終止
形］が［接続助詞「が」］が、［読点］／安易［形容動
詞語幹］に［形容動詞語尾連用形］／結論［名詞］は
［格助詞］／出［動詞語幹］せ［下一段語尾連用形］ま
せ［助動詞「ます」未然形］ん［助動詞「ん」終止
形］。［句点］ ……（12）この第二の実施例では、文体表現記憶手段３や位置条件
記憶手段５に記憶する表現について、その表現の文字列
だけでなくその表現を構成する単語の品詞情報もあわせ
て待つようにする。第10図は第二の実施例における文体
表現記憶手段３の内容の例を示す図である。第11図は第
二の実施例における位置条件記憶手段５の内容の例を示
す図である。

文体表現検出手段４や位置条件判定手段６については、
第一の実施例で説明した処理において文字列の照合を行
う際に、文字列の照合だけでなく単語の品詞の照合も行
うようにする。また、位置条件学習手段９は文体表現の
直後の接続表現を単語（あるいは単語の系列）として品
詞も含めて抽出するようにする。その結果、第二の実施
例では第一の実施例に比べて、文体表現検出手段４の文
体を特徴付ける表現の検出誤りや位置条件判定手段６の
条件の判定誤りがなくなり、文章検査装置の性能が向上
する。

〔発明の効果〕

以上説明したように、本発明によれば敬体や常体の使用
されている位置に関する検査を行うことが可能となる。
すなわち日本語文章の文体について、従来のように常体
と敬体の混在を検査するだけでなく、敬体の使い方も検
査することができるので、より自然の日本語文章を作成
することに役立つ。

また、本発明の文章検査装置では、敬体や常体を使用す
る位置の条件をユーザの好みに応じて、あるいは作成す
る文章に応じて変更して文体の検査を行うことが可能で
ある。例えば第一の実施例に関して、位置条件学習手段
９によって位置条件記憶手段５に書き込む条件を「。」
と「ので、」のみにするならば、文体がおかしいとして
検出される箇所は次の（13）のようになり、（11）とは
異なる結果が得られる。

超新星から届いたと考えられます素粒子のデータを収集
しました。そのデータは、次に示した通りだが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …（13）また同様に、敬体の直後に使用する表現を位置条件記憶
手段５に書き込まなければ、次の（14）のような検出結
果となる。これは全てを常体に統一しようとする検査の
場合になる。

超新星から届いたと考えられます素粒子のデータを収集
しました。そのデータは、次に示した通りだが、容易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。

このように条件をユーザが設定できる結果、ユーザの好
みや作成する文章に応じた文体の検査を行える柔軟性が
高く、操作性の良い文章検査装置が得られる。さらに、
条件は基準となる文章をもとに自動的に学習することが
できるので、条件の設定がきわめて容易である。

【図面の簡単な説明】

第１図・第９図は本発明の実施例の構成を示すブロック
図、第２図・第３図・第７図・第10図は文体表現記憶手
段の内容の例を示す図、第４図・第５図・第８図・第11
図は位置条件記憶手段の内容の例を示す図、第６図は位
置条件判定手段における判定処理のフローチャートであ
る。１……文章入力手段、２……文章記憶手段、３……文体
表現記憶手段、４……文体表現検出手段、５……位置条
件記憶手段、６……位置条件判定手段、７……単語辞書
記憶手段、８……文章解析手段、９……位置条件学習手
段、10……切り換え手段。

Claims

【特許請求の範囲】

【請求項１】入力された日本語文章から誤り箇所あるい
は不適切箇所を検出する文章検査装置において、文体を
特徴付ける表現を記憶する文体表現記憶手段と、前記日
本語文章から前記文体表現記憶手段に記憶された表現を
検出する文体表現検出手段と、学習モードと検査モード
とを切り換える切り換え手段と、前記学習モードにおい
て前記文体表現検出手段の検出結果をもとに前記文体を
特徴付ける表現を使用する位置の条件を抽出する位置条
件学習手段と、前記位置条件学習手段によって抽出され
た条件を記憶する位置条件記憶手段と、前記検査モード
において前記文体表現検出手段によって検出された表現
の位置が前記位置条件記憶手段に記憶された条件を満た
すか否かを判定する位置条件判定手段とを備えたことを
特徴とする文章検査装置。