JPH077417B2 - 文章検査装置 - Google Patents
文章検査装置Info
- Publication number
- JPH077417B2 JPH077417B2 JP63256188A JP25618888A JPH077417B2 JP H077417 B2 JPH077417 B2 JP H077417B2 JP 63256188 A JP63256188 A JP 63256188A JP 25618888 A JP25618888 A JP 25618888A JP H077417 B2 JPH077417 B2 JP H077417B2
- Authority
- JP
- Japan
- Prior art keywords
- expression
- style
- sentence
- condition
- storage means
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000007689 inspection Methods 0.000 title claims description 30
- 230000014509 gene expression Effects 0.000 claims description 112
- 238000001514 detection method Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 description 12
- 239000002245 particle Substances 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 2
- 241001122315 Polites Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】 〔産業上の利用分野〕 本発明は入力された文章から誤り箇所あるいは不適切箇
所を検出する文章検査装置に関する。
所を検出する文章検査装置に関する。
日本語文章の文体は常体(だ・である体)と敬語(です
・ます体、であります体、ございます体)とに分けるこ
とができる。例えば、次の(1)および(2)の文は常
体の文であり、(3)および(4)の文は敬体の文であ
る。
・ます体、であります体、ございます体)とに分けるこ
とができる。例えば、次の(1)および(2)の文は常
体の文であり、(3)および(4)の文は敬体の文であ
る。
次の通りだ。 …(1) 次の通りである。 …(2) 次の通りです。 …(3) 次の通りでございます。 …(4) 一般に、ひとつの文章中で常体の文と敬体の文とが混在
することは好ましくない。そのような混在の検査は、
『日本語文章作成支援システムCOMET』(福島・他、電
子通信学会技術研究報告OS86−21、1986年)、および特
開昭61−229155号公報『日本語ワード・プロセッシング
方式』などで述べられている。その方式は文体(常体/
敬体)を特徴付ける表現を記憶する文体表現記憶手段を
用意し、文章中からこの文体表現記憶手段に記憶された
表現を検出すると同時に、検出された表現の数を常体と
敬体とに分けてカウントするというものである。常体と
敬体の数がともに1以上であれば、常体と敬体とが混在
していることになる。
することは好ましくない。そのような混在の検査は、
『日本語文章作成支援システムCOMET』(福島・他、電
子通信学会技術研究報告OS86−21、1986年)、および特
開昭61−229155号公報『日本語ワード・プロセッシング
方式』などで述べられている。その方式は文体(常体/
敬体)を特徴付ける表現を記憶する文体表現記憶手段を
用意し、文章中からこの文体表現記憶手段に記憶された
表現を検出すると同時に、検出された表現の数を常体と
敬体とに分けてカウントするというものである。常体と
敬体の数がともに1以上であれば、常体と敬体とが混在
していることになる。
文体に関する検査としては、従来の常体と敬体との混在
に関する検査だけでなく、敬体や常体が使用されている
位置に関する検査が必要である。
に関する検査だけでなく、敬体や常体が使用されている
位置に関する検査が必要である。
例えば、次の(5)は常体の文であり、(6),
(7),(8)はともに(5)に対する敬体の文であ
る。しかし、同じ敬体の文であっても、(6),
(7),(8)では文の途中の敬体の使用されている位
置・回数が異なる(下線部分が敬体を特徴付ける表現で
ある)。その結果、(5)<(6)<(7)<(8)の
順の丁寧さが増している。
(7),(8)はともに(5)に対する敬体の文であ
る。しかし、同じ敬体の文であっても、(6),
(7),(8)では文の途中の敬体の使用されている位
置・回数が異なる(下線部分が敬体を特徴付ける表現で
ある)。その結果、(5)<(6)<(7)<(8)の
順の丁寧さが増している。
データは次に示した通りだが、安易に結論は出せない。
…(5) データは次に示した通りだが、安易に結論は出せませ
ん。 …(6) データは次に示した通りですが、安易に結論は出せませ
ん。 …(7) データは次に示しました通りですが、安易に結論は出せ
ません。 …(8) 常体の文と敬体の文という区別だけでなく敬体の文に関
する様々な形が日本語では許されるが、作成する文章の
種類によっては好ましくない形が存在する。例えば、社
内文書を考えた場合、(8)は過度に丁寧であり避けた
い形である。
…(5) データは次に示した通りだが、安易に結論は出せませ
ん。 …(6) データは次に示した通りですが、安易に結論は出せませ
ん。 …(7) データは次に示しました通りですが、安易に結論は出せ
ません。 …(8) 常体の文と敬体の文という区別だけでなく敬体の文に関
する様々な形が日本語では許されるが、作成する文章の
種類によっては好ましくない形が存在する。例えば、社
内文書を考えた場合、(8)は過度に丁寧であり避けた
い形である。
また、ひとつの文章中では常体の文または敬体の文に統
一されているだけでなく、敬体の文の場合の敬体の使用
法も統一されているべきである。例えば、次の(9)の
ような文章は敬体の使用法が不規則であり、日本語とし
て不自然である(下線部分が敬体を特徴付ける表現であ
る)。
一されているだけでなく、敬体の文の場合の敬体の使用
法も統一されているべきである。例えば、次の(9)の
ような文章は敬体の使用法が不規則であり、日本語とし
て不自然である(下線部分が敬体を特徴付ける表現であ
る)。
超新星から届いたと考えられます素粒子のデータを収集
しました。そのデータは、次に示した通りだが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …(9) 上記のような問題は敬体や常体を使用する位置に関する
検査を行えば解決することができる。例えば、分末(句
点の直前)と接続助詞「が」の直前では敬体を使用し、
他の位置では常体を使用するという条件を定めて検査す
るならば、(5)〜(8)については(5),(6),
(8)は不適切で(7)が適切であると判定される。同
様に、(9)は不適切であり、それに対して次の(10)
のような文章は適切であると判定されることになる(下
線部分が敬体を特徴付ける表現である)。
しました。そのデータは、次に示した通りだが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …(9) 上記のような問題は敬体や常体を使用する位置に関する
検査を行えば解決することができる。例えば、分末(句
点の直前)と接続助詞「が」の直前では敬体を使用し、
他の位置では常体を使用するという条件を定めて検査す
るならば、(5)〜(8)については(5),(6),
(8)は不適切で(7)が適切であると判定される。同
様に、(9)は不適切であり、それに対して次の(10)
のような文章は適切であると判定されることになる(下
線部分が敬体を特徴付ける表現である)。
超新星から届いたと考えられる素粒子のデータを収集し
ました。そのデータは、次に示した通りですが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …(10) 従来、このような敬体や常体の使用されている位置に関
する検査は、人間が行うしか方法がなかった。
ました。そのデータは、次に示した通りですが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …(10) 従来、このような敬体や常体の使用されている位置に関
する検査は、人間が行うしか方法がなかった。
本発明の目的は、敬体や常体の使用されている位置に関
する検査を行うことのできる文章検査装置を提供するこ
とである。また、基準となる文章を学習することによっ
て、敬体や常体を使用する位置に関する条件を容易に設
定できるようにしている。
する検査を行うことのできる文章検査装置を提供するこ
とである。また、基準となる文章を学習することによっ
て、敬体や常体を使用する位置に関する条件を容易に設
定できるようにしている。
本発明の文章検査装置は、入力された日本語文章から誤
り箇所あるいは不適切箇所を検出する文章検査装置にお
いて、文体を特徴付ける表現を記憶する文体表現記憶手
段と、前記日本語文章から前記文体表現記憶手段に記憶
された表現を検出する文体表現検出手段と、学習モード
と検査モードとを切り換える切り換え手段と、前記学習
モードにおいて前記文体表現検出手段の検出結果をもと
に前記文体を特徴付ける表現を使用する位置の条件を抽
出する位置条件学習手段と、前記位置条件学習手段によ
って抽出された条件を記憶する位置条件記憶手段と、前
記検査モードにおいて前記文体表現検出手段によって検
出された表現の位置が前記位置条件記憶手段に記憶され
た条件を満たすか否かを判定する位置条件判定手段とを
備えて構成される。
り箇所あるいは不適切箇所を検出する文章検査装置にお
いて、文体を特徴付ける表現を記憶する文体表現記憶手
段と、前記日本語文章から前記文体表現記憶手段に記憶
された表現を検出する文体表現検出手段と、学習モード
と検査モードとを切り換える切り換え手段と、前記学習
モードにおいて前記文体表現検出手段の検出結果をもと
に前記文体を特徴付ける表現を使用する位置の条件を抽
出する位置条件学習手段と、前記位置条件学習手段によ
って抽出された条件を記憶する位置条件記憶手段と、前
記検査モードにおいて前記文体表現検出手段によって検
出された表現の位置が前記位置条件記憶手段に記憶され
た条件を満たすか否かを判定する位置条件判定手段とを
備えて構成される。
以下、本発明について図面を参照しながら説明する。
第1図は本発明による文章検査装置の第一の実施例の構
成を示すブロック図である。
成を示すブロック図である。
同図において、文章入力手段1は日本語文章を入力す
る。かな漢字変換入力装置、ペンタッチ・キーボード、
文字認識装置などが用いられる。
る。かな漢字変換入力装置、ペンタッチ・キーボード、
文字認識装置などが用いられる。
文章記憶手段2は文章入力手段1によって入力された日
本語文章を文字コード列として記憶する。ICメモリ、磁
気ディスク装置、磁気テープ装置、光ディスク装置など
が用いられる。
本語文章を文字コード列として記憶する。ICメモリ、磁
気ディスク装置、磁気テープ装置、光ディスク装置など
が用いられる。
文体表現記憶手段3は文体(常体/敬体)を特徴付ける
表現を記憶する。ICメモリ、磁気ディスク装置、磁気テ
ープ装置、光ディスク装置などが用いられる。第2図お
よび第3図は文体表現記憶手段3の内容の例である。第
2図では、常体を特徴付ける表現の文字列と敬体を特徴
付ける文字列の両方が、文体表現30の文字コード順に並
べて記憶されている。そして各表現には常体と敬体のい
ずれかを識別する情報である文体識別31が付加されてい
る。第3図では、常体を特徴付ける表現(a)と敬体を
特徴付ける表現(b)とが分けて登録される。従って、
文字識別31は各々の表現には付与されていない。
表現を記憶する。ICメモリ、磁気ディスク装置、磁気テ
ープ装置、光ディスク装置などが用いられる。第2図お
よび第3図は文体表現記憶手段3の内容の例である。第
2図では、常体を特徴付ける表現の文字列と敬体を特徴
付ける文字列の両方が、文体表現30の文字コード順に並
べて記憶されている。そして各表現には常体と敬体のい
ずれかを識別する情報である文体識別31が付加されてい
る。第3図では、常体を特徴付ける表現(a)と敬体を
特徴付ける表現(b)とが分けて登録される。従って、
文字識別31は各々の表現には付与されていない。
文体表現検査手段4は文章記憶手段2に記憶された日本
語文章から文体表現記憶手段3に記憶された表現を検出
する。コンピュータのCPUなどが用いられる。この文体
表現検出手段4は文章記憶手段2に記憶された日本語文
章と文体表現記憶手段3に記憶された表現とを比較・照
合する処理を行ない、検出された表現の文章中の位置お
よび文体識別とを位置条件判別手段6および位置条件学
習手段9へ送る。
語文章から文体表現記憶手段3に記憶された表現を検出
する。コンピュータのCPUなどが用いられる。この文体
表現検出手段4は文章記憶手段2に記憶された日本語文
章と文体表現記憶手段3に記憶された表現とを比較・照
合する処理を行ない、検出された表現の文章中の位置お
よび文体識別とを位置条件判別手段6および位置条件学
習手段9へ送る。
位置条件記憶手段5は文体(常体/敬体)を特徴付ける
表現を使用する位置に関する条件を記憶する。記憶する
条件は、切り換え手段10が学習モードを指定するとき
に、位置条件学習手段9によって書き込まれる。ICメモ
リ、磁気ディスク装置、磁気テープ装置、光ディスク装
置などが用いられる。第4図および第5図は位置条件記
憶手段の内容の例である。第4図の位置条件記憶手段5
は敬体を特徴付ける表現の直後に接続する表現の文字列
を登録する形で条件を表している。すなわち、敬体を特
徴付ける表現の直後は「。」「が、」「ので、」のいず
れかであり、常体を特徴付ける表現の直後は「。」
「が、」「ので、」以外であるという条件を表してい
る。第5図の位置条件記憶手段5aは文体識別50と条件種
別51と接続表現52から成っている。文体識別50は常態を
特徴付ける表現の位置に関する条件なのか、敬体を特徴
付ける表現の位置に関する条件なのかを示す。条件種別
51が「+」の場合はその文体表現の直後に接続する表現
として接続表現52の部分の文字列を許すということを表
し、条件種別51が「−」の場合はその文体表現の直後に
接続する表現として接続表現52の部分の文字列を禁止す
るということを表す。この第5図は第4図と同様の条件
を表したものである。
表現を使用する位置に関する条件を記憶する。記憶する
条件は、切り換え手段10が学習モードを指定するとき
に、位置条件学習手段9によって書き込まれる。ICメモ
リ、磁気ディスク装置、磁気テープ装置、光ディスク装
置などが用いられる。第4図および第5図は位置条件記
憶手段の内容の例である。第4図の位置条件記憶手段5
は敬体を特徴付ける表現の直後に接続する表現の文字列
を登録する形で条件を表している。すなわち、敬体を特
徴付ける表現の直後は「。」「が、」「ので、」のいず
れかであり、常体を特徴付ける表現の直後は「。」
「が、」「ので、」以外であるという条件を表してい
る。第5図の位置条件記憶手段5aは文体識別50と条件種
別51と接続表現52から成っている。文体識別50は常態を
特徴付ける表現の位置に関する条件なのか、敬体を特徴
付ける表現の位置に関する条件なのかを示す。条件種別
51が「+」の場合はその文体表現の直後に接続する表現
として接続表現52の部分の文字列を許すということを表
し、条件種別51が「−」の場合はその文体表現の直後に
接続する表現として接続表現52の部分の文字列を禁止す
るということを表す。この第5図は第4図と同様の条件
を表したものである。
切り換え手段10は学習モードと検査モードとを切り換え
る。キーボードの特定のキーとして実現してもよいし、
トグルスイッチとして実現してもよい。切り換え手段10
は学習モードが指定されているときには位置条件学習手
段9を起動し、検査モードが指定されているときには位
置条件判定手段6を起動する(位置条件学習手段9と位
置条件判定手段6とのいずれか一方のみを起動する)。
る。キーボードの特定のキーとして実現してもよいし、
トグルスイッチとして実現してもよい。切り換え手段10
は学習モードが指定されているときには位置条件学習手
段9を起動し、検査モードが指定されているときには位
置条件判定手段6を起動する(位置条件学習手段9と位
置条件判定手段6とのいずれか一方のみを起動する)。
位置条件学習手段9は、学習モードが指定されていると
きに、文体表現検出手段4の検出結果をもとにして文体
(常体/敬体)を特徴付ける表現を使用する位置に関す
る条件を抽出する。コンピュータのCPUなどが用いられ
る。学習モードでは、文体の位置に関する条件を満たし
た基準となる文章が文章入力手段1から入力されるよう
にする。文体を特徴付ける表現を使用する位置に関する
条件の抽出方法位置条件記憶手段5に記憶する条件の記
述方法によって異なるが、第4図に示したような記述方
法の場合は、例えば文体表現検出手段4から敬体表現の
検出された位置を受け取り、その直後の文字列を句読点
まで抽出すればよい。第5図に示したような記述方法の
場合は、あらかじめ接続表現52として考えられるものと
文体種別(敬体/常体)50とを組み合わせたパターンに
ついて、条件種別51の値を「−」にした表(第5図の条
件種別51の値が「−」のもの)を用意しておく。そして
基準となる文章から文体表現検出手段4の検出した文体
表現の直後の文字列とその接続表現52の文字列とを照合
して、一致した接続表現と文字種別に対応する部分の条
件種別51に「+」を書き込む。位置条件学習手段9はそ
れらの条件を位置条件記憶手段5に書き込む。
きに、文体表現検出手段4の検出結果をもとにして文体
(常体/敬体)を特徴付ける表現を使用する位置に関す
る条件を抽出する。コンピュータのCPUなどが用いられ
る。学習モードでは、文体の位置に関する条件を満たし
た基準となる文章が文章入力手段1から入力されるよう
にする。文体を特徴付ける表現を使用する位置に関する
条件の抽出方法位置条件記憶手段5に記憶する条件の記
述方法によって異なるが、第4図に示したような記述方
法の場合は、例えば文体表現検出手段4から敬体表現の
検出された位置を受け取り、その直後の文字列を句読点
まで抽出すればよい。第5図に示したような記述方法の
場合は、あらかじめ接続表現52として考えられるものと
文体種別(敬体/常体)50とを組み合わせたパターンに
ついて、条件種別51の値を「−」にした表(第5図の条
件種別51の値が「−」のもの)を用意しておく。そして
基準となる文章から文体表現検出手段4の検出した文体
表現の直後の文字列とその接続表現52の文字列とを照合
して、一致した接続表現と文字種別に対応する部分の条
件種別51に「+」を書き込む。位置条件学習手段9はそ
れらの条件を位置条件記憶手段5に書き込む。
位置条件判定手段6は、検査モードが指定されていると
きに、文体表現検出手段4によって検出された表現の位
置が位置条件記憶手段5に記憶された条件を満たすか否
かを判定する。コンピュータのCPUなどが用いられる。
検査モード時には、検査の対象となる文章が入力される
ことになる。この位置条件判定手段6は、まず文体表現
検出手段4より文体(常体/敬体)を特徴付ける表現の
検出された位置を受け取る。そして次に、その文体に関
する条件を位置条件記憶手段5から読み込み、検出され
た表現の位置がその条件を満たすか否かを文章記憶手段
2に記憶された日本語文章を検索して判定する。この判
定処理の内容は位置条件記憶手段5における条件の記述
方法によって異なるものになるが、第4図に示したよう
な位置条件記憶手段5の場合は第6図のフローチャート
のような判定処理となる。なお、位置条件判定手段6は
検出された表現の位置と判定結果とを出力する。
きに、文体表現検出手段4によって検出された表現の位
置が位置条件記憶手段5に記憶された条件を満たすか否
かを判定する。コンピュータのCPUなどが用いられる。
検査モード時には、検査の対象となる文章が入力される
ことになる。この位置条件判定手段6は、まず文体表現
検出手段4より文体(常体/敬体)を特徴付ける表現の
検出された位置を受け取る。そして次に、その文体に関
する条件を位置条件記憶手段5から読み込み、検出され
た表現の位置がその条件を満たすか否かを文章記憶手段
2に記憶された日本語文章を検索して判定する。この判
定処理の内容は位置条件記憶手段5における条件の記述
方法によって異なるものになるが、第4図に示したよう
な位置条件記憶手段5の場合は第6図のフローチャート
のような判定処理となる。なお、位置条件判定手段6は
検出された表現の位置と判定結果とを出力する。
また、文体表現検出手段4と位置条件判定手段6の動作
タイミングの制御方法としては、文体表現検出手段4が
文体を特徴付ける表現をひとつ検出するごとに位置条件
判定手段6の判定処理を行う方法と、文体表現検出手段
4が文体を特徴付ける表現を全て検出した後で位置条件
判定手段6の判定処理をまとめて行う方法がある。
タイミングの制御方法としては、文体表現検出手段4が
文体を特徴付ける表現をひとつ検出するごとに位置条件
判定手段6の判定処理を行う方法と、文体表現検出手段
4が文体を特徴付ける表現を全て検出した後で位置条件
判定手段6の判定処理をまとめて行う方法がある。
次に上記の文章検査装置の動作を例を用いて説明する。
その際、文体表現記憶手段3の内容は第2図の例を用い
る。動作タイミングについては、文体表現検出手段4が
文体を特徴付ける表現を全て検出した後で、位置条件判
定手段6の判定処理をまとめて行う方法による。
その際、文体表現記憶手段3の内容は第2図の例を用い
る。動作タイミングについては、文体表現検出手段4が
文体を特徴付ける表現を全て検出した後で、位置条件判
定手段6の判定処理をまとめて行う方法による。
まず、切り換え手段10が学習モードを指定したとする。
そして次のような基準となる文章(15)が入力されて文
章記憶手段2に記憶されているものとする。
そして次のような基準となる文章(15)が入力されて文
章記憶手段2に記憶されているものとする。
今は晴れていますが、予報では雨ですので、傘が必要で
しょう。 …(15) そして文体表現検出手段4は文章記憶手段2に記憶され
た(15)の文章と文体表現記憶手段3に記憶された文字
列とを照合し、次のような文字列を、文字を特徴付ける
表現として検出する。[]内は検出された表現の位置
(文章の先頭からの文字数)、文体識別である。
しょう。 …(15) そして文体表現検出手段4は文章記憶手段2に記憶され
た(15)の文章と文体表現記憶手段3に記憶された文字
列とを照合し、次のような文字列を、文字を特徴付ける
表現として検出する。[]内は検出された表現の位置
(文章の先頭からの文字数)、文体識別である。
います [6〜8,敬体] です [16〜17,敬体] でしょう [25〜28,敬体] この結果をもとに、位置条件学習手段9は文体を特徴付
ける表現を使用する位置に関する条件の抽出を行う。こ
こでは、上記の敬体表現の直後の文字列を句読点まで取
り出すことにより、第4図のような条件が位置条件記憶
手段5に書き込まれたものとする。
ける表現を使用する位置に関する条件の抽出を行う。こ
こでは、上記の敬体表現の直後の文字列を句読点まで取
り出すことにより、第4図のような条件が位置条件記憶
手段5に書き込まれたものとする。
さて、ここで位置条件の設定は完了し、切り換え手段10
から検査モードが指定されたものとする。そして文章入
力手段1から前に示した(9)の例文が入力され、文章
記憶手段2に記憶されたものとする。そして、文体表現
検出手段4は、文章記憶手段2に記憶された(9)の文
章と文体表現記憶手段3に記憶された文字列とを照合
し、次のような文字列を文体を特徴付ける表現として検
出する。
から検査モードが指定されたものとする。そして文章入
力手段1から前に示した(9)の例文が入力され、文章
記憶手段2に記憶されたものとする。そして、文体表現
検出手段4は、文章記憶手段2に記憶された(9)の文
章と文体表現記憶手段3に記憶された文字列とを照合
し、次のような文字列を文体を特徴付ける表現として検
出する。
いた [7〜8,常体] られます [12〜15,敬体] しました [26〜29,敬体] した [41〜42,常体] だ [45〜45,常体] せません [55〜58,敬体] います [75〜77,敬体] です [92〜93,敬体] すると、今度は検査モードなので、位置条件学習手段9
ではなく位置条件判定手段6が動作し、文体表現検出手
段4によって検出された表現の直後の文字列と位置条件
記憶手段5に記憶された文字列との比較を行い、第6図
のフローチャートに従った判定を行う。
ではなく位置条件判定手段6が動作し、文体表現検出手
段4によって検出された表現の直後の文字列と位置条件
記憶手段5に記憶された文字列との比較を行い、第6図
のフローチャートに従った判定を行う。
具体的に説明すると、[7〜8,常体]に対しては、文章
の9文字目からの文字列「と考え………」は位置条件記
憶手段5に記憶された「。」「が、」「ので、」とは一
致しない。そして文体識別は常体なので、条件を満たす
と判定される。[12〜15,敬体]に対しては、文章の16
文字目からの文字列「素粒子の………」は位置条件記憶
手段5に記憶された「。」「が、」「ので、」とは一致
しない。そして文体識別は敬体なので、条件を満たさな
いと判定される。[26〜29,敬体]に対しては、文章の3
0文字目からの文字列「。その………」は位置条件記憶
手段5に記憶された「。」と一致する。そして文字識別
は敬体なので、条件を満たすと判定される。以下同様で
ある。
の9文字目からの文字列「と考え………」は位置条件記
憶手段5に記憶された「。」「が、」「ので、」とは一
致しない。そして文体識別は常体なので、条件を満たす
と判定される。[12〜15,敬体]に対しては、文章の16
文字目からの文字列「素粒子の………」は位置条件記憶
手段5に記憶された「。」「が、」「ので、」とは一致
しない。そして文体識別は敬体なので、条件を満たさな
いと判定される。[26〜29,敬体]に対しては、文章の3
0文字目からの文字列「。その………」は位置条件記憶
手段5に記憶された「。」と一致する。そして文字識別
は敬体なので、条件を満たすと判定される。以下同様で
ある。
その結果、位置条件判定手段6から次にような情報が出
力される。
力される。
[7〜8,条件を満たす] [12〜15,条件を満たさない] [26〜29,条件を満たす] [41〜42,条件を満たす] [45〜45,条件を満たさない] [55〜58,条件を満たす] [75〜77,条件を満たす] [92〜93,条件を満たす] すなわち、(9)の文章に対して次の(11)の下線で示
した部分の文体がおかしいという結果が得られ、常体や
敬体の使用されている位置に関する検査が行われた。
した部分の文体がおかしいという結果が得られ、常体や
敬体の使用されている位置に関する検査が行われた。
超新星から届いたと考えられます素粒子のデータを収集
しました。そのデータは、次に示した通りだが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …(11) 第1の下線の部分は「られる」となるべきであり、敬体
が過剰の箇所が検出されてい。第2の下線の部分は「で
す」となるべきであり、敬体が不足している部分が検出
されている。
しました。そのデータは、次に示した通りだが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …(11) 第1の下線の部分は「られる」となるべきであり、敬体
が過剰の箇所が検出されてい。第2の下線の部分は「で
す」となるべきであり、敬体が不足している部分が検出
されている。
ここで、文体表現記憶手段3に記憶しておく内容を制限
しておくことも考えられる。例えば、文体表現記憶手段
3に記憶しておく内容を第3図(a)のように常体を特
徴付ける表現のみとすることもできる。その場合には
(11)の第2の下線部分のような、敬体が不足している
箇所のみが検出される(敬体が過剰な箇所は検出されな
い)。逆に文体表現記憶手段3に記憶しておく内容を第
3図(b)のように敬体を特徴付ける表現のみとした場
合には、(11)の第1の下線部分のような、敬体が過剰
な箇所のみが検出される(敬体が不足している箇所は検
出されない)。
しておくことも考えられる。例えば、文体表現記憶手段
3に記憶しておく内容を第3図(a)のように常体を特
徴付ける表現のみとすることもできる。その場合には
(11)の第2の下線部分のような、敬体が不足している
箇所のみが検出される(敬体が過剰な箇所は検出されな
い)。逆に文体表現記憶手段3に記憶しておく内容を第
3図(b)のように敬体を特徴付ける表現のみとした場
合には、(11)の第1の下線部分のような、敬体が過剰
な箇所のみが検出される(敬体が不足している箇所は検
出されない)。
また、文体表現記憶手段3に記憶しておく表現の文体識
別について、常体/敬体の2分類だけでなく3つ以上の
分類を用いることも可能である。第7図は常体/敬体1/
敬体2の3種類の文体識別を用いた文体表現記憶手段3
の内容の例である。第7図における文体識別が敬体2の
ものは「ございます体」といわれるものである。そして
文体識別の種類に応じて条件を細分化することも可能で
ある。第8図は第7図のような文体識別の種類に対応し
た、位置条件記憶手段5aの内容の例である。
別について、常体/敬体の2分類だけでなく3つ以上の
分類を用いることも可能である。第7図は常体/敬体1/
敬体2の3種類の文体識別を用いた文体表現記憶手段3
の内容の例である。第7図における文体識別が敬体2の
ものは「ございます体」といわれるものである。そして
文体識別の種類に応じて条件を細分化することも可能で
ある。第8図は第7図のような文体識別の種類に対応し
た、位置条件記憶手段5aの内容の例である。
第9図は本発明による文章検査装置の第二の実施例の構
成を示すブロック図である。この第二の実施例は前述の
第一の実施例に対して単語辞書記憶手段7と文章解析手
段8を加えたものである。
成を示すブロック図である。この第二の実施例は前述の
第一の実施例に対して単語辞書記憶手段7と文章解析手
段8を加えたものである。
単語辞書記憶手段7は日本語の単語について少なくとも
表記と品詞とを登録した単語辞書を記憶する。ICメモ
リ、磁気ディスク装置、磁気テープ装置、光ディスク装
置などが用いられる。文章解析手段8は文章記憶手段2
に記憶された文章の解析を行う。コンピュータのCPUな
どが用いられる。
表記と品詞とを登録した単語辞書を記憶する。ICメモ
リ、磁気ディスク装置、磁気テープ装置、光ディスク装
置などが用いられる。文章解析手段8は文章記憶手段2
に記憶された文章の解析を行う。コンピュータのCPUな
どが用いられる。
文章の解析は単語辞書記憶手段7に記憶された単語辞書
を参照して行い、その結果として文節・単語の単位や単
語の品詞などが得られる。この文章解析手段8と単語辞
書記憶手段7は公知の手段であり、例えば『国語辞書の
記憶と日本語文の自動分割』(長尾・他、「情報処理」
第19巻第6号、1978)のようにして実現できる。文章解
析手段8は文章記憶手段2に記憶された文章の解析結果
を再び文章記憶手段2に書き込むので、文章記憶手段2
には文章の文字コード列だけでなく文節・単語の単位や
単語の品詞の情報も記憶される。例えば文章解析の結
果、文(6)に対しては次の(12)のような内容が記憶
される。[]内は単語の品詞、/は文節の境界を表す。
を参照して行い、その結果として文節・単語の単位や単
語の品詞などが得られる。この文章解析手段8と単語辞
書記憶手段7は公知の手段であり、例えば『国語辞書の
記憶と日本語文の自動分割』(長尾・他、「情報処理」
第19巻第6号、1978)のようにして実現できる。文章解
析手段8は文章記憶手段2に記憶された文章の解析結果
を再び文章記憶手段2に書き込むので、文章記憶手段2
には文章の文字コード列だけでなく文節・単語の単位や
単語の品詞の情報も記憶される。例えば文章解析の結
果、文(6)に対しては次の(12)のような内容が記憶
される。[]内は単語の品詞、/は文節の境界を表す。
データ[名詞]は[格助詞]/次[名詞]に[格助詞]
/示[動詞語幹]し[五段語尾連用形]た[助動詞
「た」連帯形]/通り[名詞]だ[助動詞「だ」終止
形]が[接続助詞「が」]が、[読点]/安易[形容動
詞語幹]に[形容動詞語尾連用形]/結論[名詞]は
[格助詞]/出[動詞語幹]せ[下一段語尾連用形]ま
せ[助動詞「ます」未然形]ん[助動詞「ん」終止
形]。[句点] ……(12) この第二の実施例では、文体表現記憶手段3や位置条件
記憶手段5に記憶する表現について、その表現の文字列
だけでなくその表現を構成する単語の品詞情報もあわせ
て待つようにする。第10図は第二の実施例における文体
表現記憶手段3の内容の例を示す図である。第11図は第
二の実施例における位置条件記憶手段5の内容の例を示
す図である。
/示[動詞語幹]し[五段語尾連用形]た[助動詞
「た」連帯形]/通り[名詞]だ[助動詞「だ」終止
形]が[接続助詞「が」]が、[読点]/安易[形容動
詞語幹]に[形容動詞語尾連用形]/結論[名詞]は
[格助詞]/出[動詞語幹]せ[下一段語尾連用形]ま
せ[助動詞「ます」未然形]ん[助動詞「ん」終止
形]。[句点] ……(12) この第二の実施例では、文体表現記憶手段3や位置条件
記憶手段5に記憶する表現について、その表現の文字列
だけでなくその表現を構成する単語の品詞情報もあわせ
て待つようにする。第10図は第二の実施例における文体
表現記憶手段3の内容の例を示す図である。第11図は第
二の実施例における位置条件記憶手段5の内容の例を示
す図である。
文体表現検出手段4や位置条件判定手段6については、
第一の実施例で説明した処理において文字列の照合を行
う際に、文字列の照合だけでなく単語の品詞の照合も行
うようにする。また、位置条件学習手段9は文体表現の
直後の接続表現を単語(あるいは単語の系列)として品
詞も含めて抽出するようにする。その結果、第二の実施
例では第一の実施例に比べて、文体表現検出手段4の文
体を特徴付ける表現の検出誤りや位置条件判定手段6の
条件の判定誤りがなくなり、文章検査装置の性能が向上
する。
第一の実施例で説明した処理において文字列の照合を行
う際に、文字列の照合だけでなく単語の品詞の照合も行
うようにする。また、位置条件学習手段9は文体表現の
直後の接続表現を単語(あるいは単語の系列)として品
詞も含めて抽出するようにする。その結果、第二の実施
例では第一の実施例に比べて、文体表現検出手段4の文
体を特徴付ける表現の検出誤りや位置条件判定手段6の
条件の判定誤りがなくなり、文章検査装置の性能が向上
する。
以上説明したように、本発明によれば敬体や常体の使用
されている位置に関する検査を行うことが可能となる。
すなわち日本語文章の文体について、従来のように常体
と敬体の混在を検査するだけでなく、敬体の使い方も検
査することができるので、より自然の日本語文章を作成
することに役立つ。
されている位置に関する検査を行うことが可能となる。
すなわち日本語文章の文体について、従来のように常体
と敬体の混在を検査するだけでなく、敬体の使い方も検
査することができるので、より自然の日本語文章を作成
することに役立つ。
また、本発明の文章検査装置では、敬体や常体を使用す
る位置の条件をユーザの好みに応じて、あるいは作成す
る文章に応じて変更して文体の検査を行うことが可能で
ある。例えば第一の実施例に関して、位置条件学習手段
9によって位置条件記憶手段5に書き込む条件を「。」
と「ので、」のみにするならば、文体がおかしいとして
検出される箇所は次の(13)のようになり、(11)とは
異なる結果が得られる。
る位置の条件をユーザの好みに応じて、あるいは作成す
る文章に応じて変更して文体の検査を行うことが可能で
ある。例えば第一の実施例に関して、位置条件学習手段
9によって位置条件記憶手段5に書き込む条件を「。」
と「ので、」のみにするならば、文体がおかしいとして
検出される箇所は次の(13)のようになり、(11)とは
異なる結果が得られる。
超新星から届いたと考えられます素粒子のデータを収集
しました。そのデータは、次に示した通りだが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …(13) また同様に、敬体の直後に使用する表現を位置条件記憶
手段5に書き込まなければ、次の(14)のような検出結
果となる。これは全てを常体に統一しようとする検査の
場合になる。
しました。そのデータは、次に示した通りだが、安易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。 …(13) また同様に、敬体の直後に使用する表現を位置条件記憶
手段5に書き込まなければ、次の(14)のような検出結
果となる。これは全てを常体に統一しようとする検査の
場合になる。
超新星から届いたと考えられます素粒子のデータを収集
しました。そのデータは、次に示した通りだが、容易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。
しました。そのデータは、次に示した通りだが、容易に
結論は出せません。他のグループもデータを収集してい
ますが、そのデータとの比較が必要です。
このように条件をユーザが設定できる結果、ユーザの好
みや作成する文章に応じた文体の検査を行える柔軟性が
高く、操作性の良い文章検査装置が得られる。さらに、
条件は基準となる文章をもとに自動的に学習することが
できるので、条件の設定がきわめて容易である。
みや作成する文章に応じた文体の検査を行える柔軟性が
高く、操作性の良い文章検査装置が得られる。さらに、
条件は基準となる文章をもとに自動的に学習することが
できるので、条件の設定がきわめて容易である。
第1図・第9図は本発明の実施例の構成を示すブロック
図、第2図・第3図・第7図・第10図は文体表現記憶手
段の内容の例を示す図、第4図・第5図・第8図・第11
図は位置条件記憶手段の内容の例を示す図、第6図は位
置条件判定手段における判定処理のフローチャートであ
る。 1……文章入力手段、2……文章記憶手段、3……文体
表現記憶手段、4……文体表現検出手段、5……位置条
件記憶手段、6……位置条件判定手段、7……単語辞書
記憶手段、8……文章解析手段、9……位置条件学習手
段、10……切り換え手段。
図、第2図・第3図・第7図・第10図は文体表現記憶手
段の内容の例を示す図、第4図・第5図・第8図・第11
図は位置条件記憶手段の内容の例を示す図、第6図は位
置条件判定手段における判定処理のフローチャートであ
る。 1……文章入力手段、2……文章記憶手段、3……文体
表現記憶手段、4……文体表現検出手段、5……位置条
件記憶手段、6……位置条件判定手段、7……単語辞書
記憶手段、8……文章解析手段、9……位置条件学習手
段、10……切り換え手段。
Claims (1)
- 【請求項1】入力された日本語文章から誤り箇所あるい
は不適切箇所を検出する文章検査装置において、文体を
特徴付ける表現を記憶する文体表現記憶手段と、前記日
本語文章から前記文体表現記憶手段に記憶された表現を
検出する文体表現検出手段と、学習モードと検査モード
とを切り換える切り換え手段と、前記学習モードにおい
て前記文体表現検出手段の検出結果をもとに前記文体を
特徴付ける表現を使用する位置の条件を抽出する位置条
件学習手段と、前記位置条件学習手段によって抽出され
た条件を記憶する位置条件記憶手段と、前記検査モード
において前記文体表現検出手段によって検出された表現
の位置が前記位置条件記憶手段に記憶された条件を満た
すか否かを判定する位置条件判定手段とを備えたことを
特徴とする文章検査装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63256188A JPH077417B2 (ja) | 1988-10-11 | 1988-10-11 | 文章検査装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP63256188A JPH077417B2 (ja) | 1988-10-11 | 1988-10-11 | 文章検査装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH02103658A JPH02103658A (ja) | 1990-04-16 |
| JPH077417B2 true JPH077417B2 (ja) | 1995-01-30 |
Family
ID=17289130
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP63256188A Expired - Lifetime JPH077417B2 (ja) | 1988-10-11 | 1988-10-11 | 文章検査装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH077417B2 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH04280364A (ja) * | 1991-03-08 | 1992-10-06 | Nec Corp | 文章検査装置 |
-
1988
- 1988-10-11 JP JP63256188A patent/JPH077417B2/ja not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH02103658A (ja) | 1990-04-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5734749A (en) | Character string input system for completing an input character string with an incomplete input indicative sign | |
| US5724457A (en) | Character string input system | |
| CN100418087C (zh) | 机器翻译系统及方法 | |
| JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
| JPH08235182A (ja) | 文章処理方法とその装置 | |
| Hollingsworth et al. | Retrieving hierarchical text structure from typeset scientific articles–a prerequisite for e-science text mining | |
| JPH077417B2 (ja) | 文章検査装置 | |
| US6731802B1 (en) | Lattice and method for identifying and normalizing orthographic variations in Japanese text | |
| JPH0658667B2 (ja) | 文章検査装置 | |
| JPH0585057B2 (ja) | ||
| JP4119979B2 (ja) | 個人環境言語変換装置及び個人環境差分強調装置及びプログラム | |
| JP2870375B2 (ja) | 文章訂正装置 | |
| JPH07244669A (ja) | 文書検索方式 | |
| JPH04280364A (ja) | 文章検査装置 | |
| JPS63118868A (ja) | 日本語文章校正装置 | |
| JPH08235181A (ja) | オンライン辞書およびこれを利用した読解支援装置 | |
| JP2895137B2 (ja) | 日本文誤り自動検出および訂正装置 | |
| JPS63163956A (ja) | 文書作成・校正支援装置 | |
| CN113779027A (zh) | 一种方言同音字汇自动生成系统 | |
| JP2894736B2 (ja) | 文章検査方法 | |
| JP3873299B2 (ja) | 仮名漢字変換装置および仮名漢字変換方法 | |
| JPH05233619A (ja) | 日本語文章誤り訂正方法およびその装置 | |
| JP3061855B2 (ja) | かな漢字変換装置及びかな漢字変換方法 | |
| JP5937496B2 (ja) | 読み仮名誤り検出装置、方法並びにプログラム | |
| JPH1139347A (ja) | テキスト検索システム,インデックス作成装置,テキスト検索装置及びコンピュータ読み取り可能な記録媒体 |