JPH0577105B2 - - Google Patents

Info

Publication number
JPH0577105B2
JPH0577105B2 JP62197164A JP19716487A JPH0577105B2 JP H0577105 B2 JPH0577105 B2 JP H0577105B2 JP 62197164 A JP62197164 A JP 62197164A JP 19716487 A JP19716487 A JP 19716487A JP H0577105 B2 JPH0577105 B2 JP H0577105B2
Authority
JP
Japan
Prior art keywords
kanji
yomi
reading
word
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62197164A
Other languages
English (en)
Other versions
JPS6441063A (en
Inventor
Shinichiro Takagi
Tsuneo Yasuda
Katsumi Shimazaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP62197164A priority Critical patent/JPS6441063A/ja
Publication of JPS6441063A publication Critical patent/JPS6441063A/ja
Publication of JPH0577105B2 publication Critical patent/JPH0577105B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は、日本語文書データベース作成のた
め、入力装置から読み込まれた漢字かな混じりの
日本文文字列に含まれる誤りを、漢字未知語文字
列の読みの不自然性により検定する日本文誤り検
定装置に関するものである。
「従来の技術」 新聞記事、出版用原稿、化学技術論文等の多量
の日本文文書を電子フアイル化して、日本文文書
データベースを作成する場合、これらの読み取り
結果に混入する誤読文字や誤字、脱字、誤挿等の
誤りを検定し修正する作業は、人手による目視チ
エツクを行う方法、2人一組となつて1人が生原
稿を読み上げ、残る1人が入力された原稿を目視
しながら読み合わせで校正する方法(対校)、あ
るいは特願60−45928号、特願60−73844号に示さ
れているように、形態素解析を行つた後合成音声
により読み上げながら校正者が逐次校正指示を与
えて、読み上げ終了後該当箇所を校正する方法な
どがある。
ところが、大量の日本文文書を処理する場合、
前者の人手を要する作業では、 (1) 目視および読み合わせの連続作業は長時間無
理であるうえ、校正者の能力による精度のバラ
ツキがある。
(2) 読み合わせ作業では読み誤り、誤りの読み飛
ばし等の作業誤りが混入する。
後者の合成音声で読み上げる機械的処理では、
誤りに起因する未定義の語の読みは辞書内の頻度
の高い読みが与えられるため、例えば労働(正
解)を労働(ロードー)とするように誤りが見つ
かりにくいという欠点があり、作業効率が上がら
ないという問題があつた。
「問題点を解決するための手段」 この発明によれば音読みあるいは訓読みがある
全ての漢字1文字に対して、あて読みとしてその
音読みあるいは訓読みの読みとそのあて読みが音
読みか訓読みかを指示する音訓フラグという情報
フラグとを有する単語を登録した漢字1文字あて
読み辞書を予め作成しておき、データ処理装置お
よび単語辞書および文法辞書を用いた形態素解析
によつて品詞接続検定および単語の位置的接続が
不可能な漢字文字列が漢字未知語として抽出され
た場合にその未知語が含まれる原文の漢字列が単
独の漢字か複数の漢字の場合かに応じて、上記漢
字1文字あて読み辞書を用い、それぞれその未知
語に音読みのあて読みあるいは訓読みのあて読み
を付与する。この後、音声合成装置により、発声
された音声を校正者がその日本文の漢字の読みの
不自然性を用いて誤りを検定する。
従来技術とは、形態素解析による単語認定によ
つて、漢字未知語と認定された文字の読みを通常
の単語認定による頻度の高い読みではなく、その
漢字列の文字の数に応じて音読みのあて読みある
いは訓読みのあて読みを選択して付与するという
手段によつて読みを与え、発声された音声の不自
然性によつて校正者が誤りを検定する点が異な
る。
「実施例」 第1図はこの発明の実施例を示す。入力装置1
は漢字OCR(光学読取装置)、ペンタツチ、タブ
レツト、キーボード等であり、入力装置1の操作
は入力処理部2で入力あるいは読み込みが行わ
れ、入力装置1によつて読み込まれ、磁気装置に
文字コードの形式で記録されて入力日本文データ
ベース3とされる。形態素解析部6は単語辞書4
および文法辞書5を用いてデータベース3の文に
対する単語認定を行う。形態素解析部6で認定さ
れた単語に対し漢字未知語が誤字候補抽出部7で
抽出される。漢字あて読み付与部4は漢字1文字
あて読み辞書8を使用して誤字候補抽出部7で抽
出した漢字未知語あて読みを付与する。誤字候補
抽出部7の対象外の単語に対して日本文読み付与
部10で読みが付与される。漢字あて読み付与部
9および日本文読み付与部10で生成された読み
の出力を音声合成装置の音声出力部11により、
音声合成され、その出力はスピーカ12により音
声として放声される。音声により誤りと検出した
文字を修正修理部13で修正用端末14の操作よ
り訂正される。入力処理部2、単語辞書4、文法
辞書5、形態素解析部6、誤字候補抽出部7、漢
字あて読み付与部9、日本文読み付与部10、音
声出力部11、修正処理部13はCPU及びメモ
リよりなる処理装置15を構成される。
入力装置1で読み込んだ読み取り結果である入
力日本文データベース3に対して単語候補抽出、
品詞接続検定等の形態素解析を形態素解析部6で
行い、その単語認定で品詞接続検定および単語の
位置的接続が不可能な漢字の文字列を未知語とし
て抽出する。一方予め音読みあるいは訓読みがあ
る全ての漢字1文字に対して、あて読みとしてそ
の音読みあるいは訓読みの読みとそのあて読みが
音読みか訓読みかを指示する音訓フラグという情
報フラグを有する単語を登録した漢字1文字あて
読み辞書8を作成しておき、上記未知語が含まれ
る原文の漢字列が単独の漢字の場合に、その未知
語に対し音読のあて読みを漢字1文字あて読み辞
書8より索引して付与し、同様に上記未知語が複
数の漢字の場合には、その未知語に対して訓読み
のあれ読みを漢字1文字あて読み辞書8より索引
して付与する。さらに日本文読み付与部10によ
つて誤字候補抽出部7の対象外の単語に対して読
みを付与し、この出力と前出の漢字あて読みの出
力とを音声出力部11で音声合成し、スピーカ1
2から音声として発声し、その時の日本文の漢字
の読みの不自然性を用いて誤字の検定を行う。こ
の後、校正者が修正用端末14を用いて誤りを訂
正する。
第2図は、第1図の構成例を用いて検定を行う
具体例である。ここで、第2−1図、第2−2図
は漢字未知語がそれぞれ単独、複数の漢字列に漢
字列に含まれている場合の例であり、16は誤り
を含んだ原文文字列、17は検定対象となる漢字
列、18は誤字、誤挿、脱字等の誤り文字、19
は正解文字、20は単語認定結果における品詞、
21は単語認定結果における読み、22は漢字未
知語が単独の漢字列である場合のあて読み(音読
み)、23は漢字未知語が複数の漢字列に含まれ
た場合のあて読み(訓読み)である。
第2−1図の例では、品詞接続が不可能なため
「使」が漢字未知語として単語認定され、さらに
単独の漢字であるので本処理で漢字1文字あて読
み辞書8より「使」のあて読みに音読み(シ)を
索引、付与し読みの不自然性を与えている。
第2−2図の例では、品詞接続が不可能なため
「使」が漢字未知語として単語認定され、さらに
原文は複数の漢字列であるので本処理で漢字1文
字あて読み辞書8より「使」のあて読みに音読み
(ツカイ)を索引、付与し読みの不自然性を与え
ている。
このような構造および作用となつているから、
従来の技術に比べて、形態素解析による単語認定
によつて、漢字未知語と認定された文字の読みを
通常の単語認定による頻度の高い読みではなく、
その漢字列の文字の数に応じて音読みのあて読み
あるいは訓読みのあて読みを選択して付与すると
いう手段によつて不自然性な音声の読みを与える
ことができるので、校正者が入力された日本文の
誤りを容易に検定できる。
上述したように未知語が原文の漢字列で単独漢
字の場合は音読みのあて読みとし、複数の漢字の
場合は訓読みのあて読みとするが、漢字1文字あ
て読み辞書8には各文字についてあて読みか訓読
みかを指示する情報フラグが用いられているた
め、誤りなくあて読みを付与することができる。
「発明の効果」 以上説明したように、この発明は音読みあるい
は訓読みがある全ての漢字1文字に対して、あて
読みとしてその音読みあるいは訓読みの読みとそ
のあて読みが音読みか訓読みかを指示する音読み
フラグという情報フラグとを有する単語を登録し
た漢字1文字あて読み辞書8を予め作成してお
き、データ処理装置および単語辞書および文法辞
書を用いた形態素解析によつて品詞接続検定およ
び単語の位置的接続な漢字文字列が漢字文字列が
漢字未知語として抽出された場合にその未知語が
含まれる原文の漢字列が単独の漢字か複数の漢字
の場合に応じて、漢字1文字あて読み辞書8を用
いそれぞれの未知語に音読みのあて読みあるいは
訓読みのあて読みを付与し、この後、音声合成に
より、発声された音声を校正者がその日本文の漢
字読みの不自然性を用いて誤りを検定するもので
あるから、 (1) 校正者は音声合成装置により発声された音声
に含まれる日本文の漢字の読みの不自然性を用
いるのであるから、誤りの検出が容易で作業効
率が高くなる。
(2) 校正者は原文原稿と音声とだけで検定手段が
できるので、作業的長時間の連続作業が可能
で、さらに校正者の能力による精度のバラツキ
が少ない。
という利点がある。
【図面の簡単な説明】
第1図はこの発明の実施例の機能構成を示すブ
ロツク図、第2図は第1図の装置を用いて行う検
定の具体例を示し、第2−1図、第2−2図は漢
字未知語がそれぞれ単独、複数の漢字列に含まれ
ている場合の図である。

Claims (1)

  1. 【特許請求の範囲】 1 入力装置から入力した日本文文書データベー
    スにおけるその日本文の入力誤りまたは入力時に
    おける文字認識誤りによつて生じた誤読文字ある
    いは誤字、脱字、誤挿等の誤りを検定する装置で
    あつて、 データ処理装置および単語辞書および文法辞書
    を用いた形態素解析により単語認定を行う形態素
    解析手段と、 その形態素解析の単語認定から品詞接続および
    単語の位置的接続が不可能な漢字の文字列(未知
    語)を抽出する誤字候補抽出手段と、 音読みあるいは訓読みがある全ての漢字1文字
    に対して、予めあて読みとしてその音読みあるい
    は訓読みの読みと、そのあて読みが音読みか訓読
    みかを指示する音訓フラグという情報フラグとを
    有する単語を登録した漢字1文字あて読み辞書
    と、 その漢字1文字あて読み辞書を用いて上記漢字
    未知語に読みを付与する漢字あて読み付与手段
    と、 上記入力された日本文のうち上記の漢字未知語
    を除く部分に読みを付与する日本文読み付与手段
    と、 上記漢字あて読み付与手段と上記日本文読み付
    与手段との各出力を音声合成装置により、音声と
    して発生する音声出力手段と、 その音声を聞きながら訂正者が誤りを修正する
    修正処理手段と、 上記未知語が含まれる原文の漢字列が単独の漢
    字の場合に、その未知語に対する音読みのあて読
    みとを上記漢字1文字あて読み辞書より索引して
    これをその未知語の読みとする手段と、 上記未知語が含まれる原文の漢字列が複数の漢
    字の場合に、その未知語の各漢字1文字に対して
    訓読みのあて読みを上記漢字1文字あて読み辞書
    より索引してこれをその未知語の読みとする手段
    とを有する日本文誤り検定装置。
JP62197164A 1987-08-05 1987-08-05 Error detector for japanese sentence Granted JPS6441063A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62197164A JPS6441063A (en) 1987-08-05 1987-08-05 Error detector for japanese sentence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62197164A JPS6441063A (en) 1987-08-05 1987-08-05 Error detector for japanese sentence

Publications (2)

Publication Number Publication Date
JPS6441063A JPS6441063A (en) 1989-02-13
JPH0577105B2 true JPH0577105B2 (ja) 1993-10-26

Family

ID=16369844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62197164A Granted JPS6441063A (en) 1987-08-05 1987-08-05 Error detector for japanese sentence

Country Status (1)

Country Link
JP (1) JPS6441063A (ja)

Also Published As

Publication number Publication date
JPS6441063A (en) 1989-02-13

Similar Documents

Publication Publication Date Title
JP2001505322A (ja) 曖昧さを残さないブライユ点字入力及び変換のための方法とシステム
WO2021033865A1 (ko) 한글 학습 방법 및 그 장치
US6829580B1 (en) Linguistic converter
JPH0577105B2 (ja)
JP3470927B2 (ja) 自然語解析方法及び装置
JPH0577104B2 (ja)
JPS6288054A (ja) 文章読み上げ装置
JPS59127151A (ja) 文章読上げ装置
JPH0363767A (ja) テキスト音声合成装置
KR101080880B1 (ko) 외래어의 자동 음차 표기 방법 및 장치
KR20200062910A (ko) 개선된 프랑스어 발음 학습 제공 시스템
JPS59127146A (ja) 文章読上げ装置
JPS62212870A (ja) 文章読み上げ校正装置
JPS63189933A (ja) 文章読み上げ装置
KR930016939A (ko) 음성 합성을 위한 한국어 문장의 발음처리 방법
RU2165647C2 (ru) Способ построения словаря иностранного языка
JPH0375898B2 (ja)
JP2614912B2 (ja) 文章読み上げ装置
JPS59127150A (ja) 文章読上げ検査装置
KR20220030662A (ko) 한국·중국·일본·베트남 등 한자문화권 언어들에 대한 한글입력장치 및 그 입력방법
JPH03242755A (ja) カタカナ単語誤り検出訂正装置
JP2004355496A (ja) 音素索引多要素行列構造の英語と他言語の対訳辞書
JPH1011427A (ja) 自動議事録作成装置
JPS61235978A (ja) 文字列訂正方式
JPH0778155A (ja) 文書認識装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071026

Year of fee payment: 14