JPH02163874A - 単語辞書作成方式 - Google Patents

単語辞書作成方式

Info

Publication number
JPH02163874A
JPH02163874A JP63318131A JP31813188A JPH02163874A JP H02163874 A JPH02163874 A JP H02163874A JP 63318131 A JP63318131 A JP 63318131A JP 31813188 A JP31813188 A JP 31813188A JP H02163874 A JPH02163874 A JP H02163874A
Authority
JP
Japan
Prior art keywords
word
dictionary
unknown
character string
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63318131A
Other languages
English (en)
Inventor
Osamu Nakamura
修 中村
Akimichi Tanaka
明通 田中
Tadashi Kitamura
正 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63318131A priority Critical patent/JPH02163874A/ja
Publication of JPH02163874A publication Critical patent/JPH02163874A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声や文字の認識処理、自然言語の解析処理
等に用いる単語辞書を作成する単語辞書作成方式に関し
、特に認識処理や自然言語解析処理の精度を向上するこ
とが可能な単語辞書作成方式に関する。
〔従来技術〕
認識処理や自然言語解析処理の性能(精度)を左右する
要因のひとつに単語辞書の充実度が挙げられる。すなわ
ち、認識や解析の対象とする入力データに含まれる単語
の全てが、単語辞書に登録されていることが、精度を向
上させる条件のひとつとなっている。
しかし、新造語、略語、方言等の原因により、一般に上
記条件を満たすように辞書を構成することは不可能であ
る。このため、入力データ中に上記の未知語が含まれて
いる場合、これを検出して新たに単語辞書へ登録する手
段が必要である。
従来、入力文字列と単語辞書との照合により、置換、脱
落、挿入等の認識誤りを含む認識結果(文字列)から単
語として成立する文字列を推定することができ、これは
誤認識を防ぐための有効な方法であった。
しかし、未知語の混入を想定する場合には、単語辞書に
ない文字列に対して、その文字列が未知語であるか、誤
認識結果であるかを判別することが難しいという問題が
あった。
さらに、入力文字列が複数の単語から構成される場合、
すなわち、複合語や文に相当する場合には、未知語の判
定は一層困難になる。
また、未知語の混入を判別できたとしても、その未知語
の単語辞書への登録に時間的な遅延を生じる場合が多く
、その単語辞廖を用いる照合に即座に反映することがで
きないという問題があった。
なお、この種の方法に関するものとしては1例えば特願
昭61−248415号が挙げられる。
〔発明が解決しようとする課題〕
上記従来技術では、入力文字列から未知語を判別するこ
とが難しく、さらに入力文字列が複合語や文である場合
には判定が一層困薙であった。また、未知語を単語辞書
に登録する際、遅延が生じるという問題があった。
本発明の目的は、このような問題点を改善し、未知語判
定および複合語7文への対応を可能とし。
登録時間の遅延を防いで、認識処理や自然言語解析処理
の精度を向上させる単語辞書作成方式を提供することに
ある。
(alMを解決するための手段〕 上記目的を達成するため1本発明の単語辞書作成方式は
、音声や文字の認識処理、および自然言語の解析処理に
用いる単語辞書を作成する単語辞書検索手段において、
オペレータにより確認修正が施された入力文字列に対し
て1文字コードfM B’Jに基づく単語境界を検出し
、その入力文字列を1個以上の単語領域に分割して、そ
の単語領域に含まれる1個以上の単語候補を抽出し、そ
のtit l領域から、単語辞書に未登録の単語候補が
存在する文字領域を検出して、その文字領域の文字列が
単語として成立し、かつ単語辞書に未登録であると判定
した場合、その文字領域を単語として単語辞書に追加登
録することに特徴がある。
〔作用〕
本発明においては、入力された確定文字列を分割して得
た各単語領域から、単語候補抽出手段により未知語文字
領域を検出し、その未知語文字領域の文字列が単語とし
て成立するが、単語辞書には未登録であると判定した後
、単語候補抽出手段およびシステム外部の単語照合手段
からの単語辞書検索手段へのアクセスとの調停を行いな
がら、その未知語を単語f9書へ登録することにより5
単語辞書にない文字列が未知語であるか誤認識結果であ
るかの判定、およびその文字列が複合語や文である場合
への対応を容易にし、登録の時間遅延に関する問題点を
改汀して、認識処理や自然言語解析処理の精度を向上す
ることが可能である。
〔実施例〕
以下1本発明の一実施例を図面により説明する。
まず、本実施例の単語辞書作成システム全体のハード構
成および機能構成について述べる。
第2図は、本発明の一実施例における単語辞耳作成シス
テムの構成図、第3図は本発明の一実施例における単語
辞訴作成システムの機@構成図である。
第2図において、51は単語辞書および単語辞書作成時
に用いる各テーブル(単語候補テーブル。
未知語候補テーブル、単3辞書インデックス・辞書デー
タ生成制御テーブル)を格納する外部記憶装置、52は
メインメモリ(M E M)、53は第3図に示す各手
段(機能)を有する中央処理装置(CPU)、54は表
示装置(CRT)、55は入力装置(KB)、56は大
規模辞書へアクセスする場合に使用する通信回線である
また、第3図において、1は用語境界検出手段、2は単
語候補抽出手段(未知語検出手段)、3は単語辞書検索
手段、4は未知語確認手段、5は未知3B候補テーブル
、6は未知語登録手段である。
この単語境界検出手段1は、オペレータが確認修正した
確定文字列7を入力すると、単語境界に関する知識(単
語境界バタン)を用いて1個以上の単語領域に分割する
。この際、単語境界バタンとして、漢字、かな、カタカ
ナ、英数字等の文字種の組合せを用いる。なお、確定文
字列とは、認識結果として与えられる曖昧な文字列に対
して、オペレータによる確認または修正が施された正し
い文字列(単語、複合語1文として正しい文字列)であ
る。
また、単語候補抽出手段2は、単語境界検出手段1によ
り分割された各単語領域内に含まれる1個以上の単語候
補を抽出する。
すなわち、同じ字種の文字から構成される単語領域が単
一単語である場合は、その単一単語が実際に単語辞書に
登録されているか否かの判定で、未知語文字領域の検出
を行う。また、単Hg領域が複合語である場合には、単
in n Mに登録されているrrL語を識別すること
により、未知語文字領域を検出する。
なお、データ15は、単語候補抽出手段2と未知語登録
手段6との間で、単語辞書検索手段3へのアクセス9,
14を調停するための制御データである。
また、未知語確認手段4は、単語候補抽出手段2によっ
て検出された未知語文字領域データ11を入力し、単語
として新たに単語辞書へ32111すべきか否かを確認
する。
この確認方法としては、2つの方法が考えられる。つま
り、その文字領域データが単語として成立するか否かを
オペレータに問い合わせる方法と、通信手段を介して、
より大規模な単語辞書にアクセスすることにより、その
文字領域が単語として成立するか否かを確認する方法と
がある。
何れかの方法により、その文字領域中の文字列が単語と
して成立すること(未知語であること)が確認され、か
つ同一文字列がまだ未知語候補テーブル5に格納されて
いない場合には、単語辞書にWRすべき未知語候補とし
て、その文字列を未知語候補テーブル5に格納する。
また、未知語登録手段6は、未知語候補テーブル5に格
納された未知語候補を入力し、単語辞書内に同一の単語
が登録されていないことを、単語辞書検索手段3を用い
て確認した後、未知語登録を行う。
この際、未知語登録手段6は、制御データ15により、
単語候補抽出手段2が単語辞書検索手段3を使用してい
ないことを確認してから、単語辞書内の重複チエツクを
行う。さらに、その重複チエツクにより、完全に未知語
であると判断された文字列について、単語辞書への未知
語登録を行う。
この未知語登録では、単語辞書検索のためのインデック
スデータおよび単語辞書検索データの同各に対し、追加
処理を実行する。
次に、第3図に示した各手段の機能構成および処理手順
について具体的に述べる。
第4図は、第3図の単語境界検出手段1の機能構成図で
ある。
第4図において、16は境界バタンを照合するバタン照
合手段、17は単語境界バタン群、18は例外バタン群
、19は単語単位に確定文字列を分割する文字列分割手
段である。
このような構成により、確定文字列″緑町マンション″
′に対して単語境界を検出する場合の処理について述べ
る。
まず、バタン照合手段16は、確定文字列″緑町マンシ
ョン″を入力し1文字字種の変化点を識別する。なお1
文字字種の変化点の識別は、文字コード割当ての情報を
用いることにより、容易に実現することができる。
次に、識別された変化点における変化バタンか単語境界
バタン群17に含まれるか否かを識別する。本実施例の
″緑町マンション″は、漢字→カタカナであり、一般的
に複合語を除いて単語の境界である場合が多いため、単
語境界バタン群17内に含まれ、単語境界の候補として
識別される。
次に、その変化点近傍の文字列が例外的に1個の単語に
含まれるか否かを1例外バタン群18を参照することに
より確認する。本実施例の″緑町マンション″は、例外
とはならない。また5例えば″緑ケ丘″の場合には、漢
字→カナカナの変化バタンを有し、この変化点が1個の
単語に含まれるため、最終的には単語境界とはならない
このような単語境界検出処理を、入力文字列中の全ての
文字字種変化点について実行した後、単語境界と判定さ
れた位置で1文字列を単語領域に分割し、その結果を出
力する。
第5図は、第3図の単語候補抽出手段2の機能構成図で
ある。
第5図において、23は単語辞書インデックス探索手段
、24は単語領域から抽出した単語候補を格納する単語
候補テーブル、25は単語候補が抽出できずに未知Kn
の混入が想定される場合の不連続領域を検出する不連続
域検出手段である。
このような構成により、単語領域の文字列として、複合
語1′グリーンマンシヨン″が入力され、予め″マンシ
ョン″が単語、1に518されていて、″グリーン″が
未知語である場合の処理について述べる。
まず、単語辞書インデックス探索手段23では。
入力された単語領域の文字列8に含まれる単語候補を抽
出する。すなわち、文字列8を検索キーとして、単語辞
書検索手段3内の単語辞書インデックスを探索し1文字
列8の先頭から可能な限り長い単語候補を順次抽出する
その結果、″グリーンマンション″の初めの4文字まで
に対しては、単語辞書インデックスに該当単語候補が見
つからず、5文字目以降のパマンション″に対して、単
語候補″マンション′″が抽出される。
こうして抽出された単語候補は、後の未知語確認処理の
ため、単語候補テーブル24に格納する6次に、不連続
域検出手段25では、単語候補を抽出できた文字領域と
、抽出できなかった領域とを識別し、それぞれを出力す
る。
すなわち、抽出単語として″マンション″を。
不連続域(未知語候補)として″グリーン′″を出力す
る。
第6図は、第3図の未知語確認手段4の機能構成図であ
る。
第6図において、26は未知語候補表示手段、27は未
知語候補のテーブル31録手段である。
このような構成により、第3図に示した単語候補抽出手
段2の出力データである抽出単語″マンション′″と不
連続域の文字列″グリーン″を入力データ11とする場
合の処理について述べる。
まず、未知語候補表示手段26では、入力データ11の
中、不連続域の文字列に対し、それらが単語として成立
するか否かを判定する。すなわち。
文字列゛グリーン″が意味的に単語であるか否かを、オ
ペレータが判定するか、あるいは日常用いられる殆どの
単JrJをtI4j1シた大規模単語辞書により判定す
る。
この場合5例えばCRTディスネプレイ等に抽出単語お
よび不連続域の文字列を表示し、オペレータは不連続域
の文字列が単語として成立するか否かを判定する。なお
、オペレータの反応として想定されるのは、(1)不連
続域文字列が1個の単1inであるという指示、(2)
不連続域文字列内に複数の単語が含まれるという指示、
(3)不連続域文字列が全く単語として成立しないとい
う指示。
(4)抽出単語の部分または全てと、不連続域単語の部
分または全てとを連結すれば、単Jjとして成立すると
いう指示である。
この判定の結果、不連続域文字列の部分または全てが関
わる単語(未知語候補)の存在がオペレータによって指
示された場合、すなわち、(1)。
(2)、(4)の場合に、その未知語候補およびその位
置情報をデータ30として出力する。
一方、未知語の判定を大規模辞書により行う場合には、
オペレータの代わりに通信手段を介して、共有化した大
規模辞書に問い合わせる方法が考えられる。この方法は
使用単語を全て登録できる特殊な用途に限られ、その場
合には、オペレータが介在することなく、高価な大規模
辞書を複数の辞書作成システムで共有することができる
次に、未知語候補のテーブル登録手段27では。
未知語候補表示手段26からのオペレータへの問い合わ
せに対する応答結果として、未知語候補の文字列30を
入力し、それらの未知語候補が未知J5候補テーブル5
に重複格納されていないことを確認して、未知語テーブ
ル5へ格納する。
第7図は、第3図の未知語登録手段6の機能構成図であ
る。
第7図において、31は単語辞書検索手段の空き検出手
段、32は単語辞書インデックス・辞書データ追加手段
533は単語辞書インデックス・n害データ生成テーブ
ルである。
本実施例では、まず単語辞書インデックス・辞書データ
追加手段32は、未知語候補データ13を入力し、その
未知語候補が単語辞書内に登録されていないことを確認
する。なお、この確認は単語辞書検索手段3を用いて行
うため、単語辞書検索手段の空き検出手段31により、
予め単語候補抽出手段1と単語辞書検索手段3の間で排
他的な使用制御を行う。また、この確認の目的は、オペ
レータに指示された未知語候補が当初の不連続域文字列
と1=1に対応せず、単語として既に登録されている文
字列である場合を想定しているためである。
この確認の結果、未知語であることが最終的に確認され
ると、単語辞書インデックス・辞書データ追加手段32
は、単語辞書インデックス・辞書データ生成制御テーブ
ル33により、単語辞書検索手段3内のインデックス空
き領域および辞書データ空き領域のアドレスを得、その
空き領域にその未知語に対応するインデックス情報およ
び辞書データを書き込む。なお、インデックス情報は各
単語の文字列(単語辞書データ)へアクセスするための
制御情報であり、文字列そのものを出力する情報ではな
いため、インデックスおよび辞書データの2種類の情報
を必要とする。
第8図は、第3図の単語辞書検索手段3の機能構成図で
ある。
第8図において、10は本実施例の!a56辞書作成シ
ステムの外部に位置する文字認識処理装置等における単
語照合手段からのアクセス、36は単語辞書インデック
ス、37は単語辞書データ、38はアクセス調停手段、
39は内部バスである。
また、アクセス調停手段38は、単語候補抽出手段2お
よび未知語登録手段6からのアクセスと。
アクセス10との間の調停を行う、なお、単語候補抽出
手段2からのアクセスと、未知語登録手段6からのアク
セスとの調整は、未知語登録手段6内の単語辞書検索手
段の空き検出手段31により実行される。
本実施例の単語辞書検索手段3の動作は、辞聾検索およ
び辞書更新(未知語登録手段6からのみの動作)の2つ
に大別される。
まず、辞書検索の動作については、アクセス調停手段3
8は、単語候補抽出手段2からのアクセス9または未知
語登録手段6からのアクセス14と、外部からのアクセ
ス10との間の調停を実行し、何れかを選択する。一般
的には、外部の認識処理を優先させ、アクセス10を選
択する。
次に、外部の単語照合手段、単語候補抽出手段2、未知
語イ?録手段6の何れかが、各手段が保持するアクセス
手順に従って単語辞書インデックス36の内容を探索し
、その結果、必要時(探索成功時)には、インデックス
によって指示されたアドレスにより、単語辞書データ3
7をアクセスして検索結果を得る。
一方、辞芹更新の動作では、上記処理を経てアクセス1
4が選択された後、単語辞)インデックス36および単
語辞書データ37に追加データを言き込む。
なお、単語辞書インデックス36および単語辞書データ
37の構造には、テーブル形式や本構造形式等、各種の
データ形式を用いることができ、データの追加方法につ
いてもデータ形式に相応しい方法を選択する。
次に、本実施例の単語辞書作成システムの処理手順につ
いて述べる。
第1図は、本発明の一実施例における1lli語辞書作
成方式を示すフローチャー1−である。
本実施例の単語辞書作成システムでは、単語辞書を作成
する場合、まず、オペレータが確定文字列を入力装置5
5から入力すると(1,01)、その確定文字列の文字
字種による変化点を識別しく102)、その変化点にお
ける変化バタンか単36境界バタン群に含まれるか否か
、および、その変化点の近傍の文字列が1個の単語に含
まれるか否かをチエツクする(103,104)。
これらのチエツクを確定文字列全体に対して実行し、検
出した単語境界で単語領域に分割する(l O5)。
次に、その単語領域の文字列を検索キーとして、単語辞
書・検索手段3内のインデックスを検索しく106)、
その文字列に含まれる単語候補を抽出して、単語候補テ
ーブル24に格納する(108)。
さらに、全単語候補について、単語候補を抽出した文字
領域と抽出できなかった文字領域(不連続域)とを識別
して出力しく109)、その不連続域(未知語候補)が
単語として成立するか否かをチエツクする(110)。
その結果、単語として成立すると判断された全ての未知
語候補について、その未知語候補および未知語候補の位
置情報を出力しく111)、さらに、その未知語候補が
未知語候補テーブル5に未登録であることを確認した上
で格納する(112,113)。
次に、全ての未知語候補データについて、そ九が単語辞
書に登録されていないことを確認しく114.115)
、さらに、単語辞書検索手段3内の単語辞書インデック
ス36および単語辞書データ37の空き領域を確保して
(116)、その未登録未知語に対応するインデックス
情報および辞書データを書き込む(117)。
〔発明の効果〕
本発明においては、確認修正後の入力文字列から、単語
辞書に未登録の単語の存在が想定される文字領域を識別
し、その文字領域の文字列が単語として成立するが、単
語辞書には未登録であると判定した後、単語候補抽出手
段および外部の単語照合手段からのr…語辞書検索手段
へのアクセスとの調停を行いながら、その未知語の!…
語辞書への登録を可能にすることにより、未知語判定、
複合語7文への対応、および登録の時間遅延に関する問
題点を改善して、認識処理や自然言語解析処理の精度を
向上させることが可能である。
【図面の簡単な説明】
第1図は本発明の一実施例における単語辞書作成方式を
示すフローチャート、第2図は本発明の一実施例におけ
る単語辞書作成システムの構成図。 第3図は本発明の一実施例における単語辞書作成システ
ムの機能掃成図、第4図は第3図の単語境界検出手段の
機能構成図、第5図は第3図の単語候補抽出手段の機能
構成図、第6図は第3図の未知語確認手段の機能構成図
、第7図は第3図の未知語確認手段の機能構成図、第8
図は第3図の単語辞書検索手段の機能構成図である。 1:単語境界検出手段、2:単語候補JdI出手段(未
知語検出手段)、3:単語辞書検索手段、4:未知語確
認手段、5:未知語候補テーブル、6:未知語登録手段
、:確定文字列、8:単語領域の文字列、9:単語候補
抽出手段2からのアクセス。 10:外部からのアクセス、11:未知語文字領域デー
タ、13:未知J/i候補データ、14:未知語イf−
録手段6からのアクセス、15:制御データ。 16:バタン照合手段、17:単語境界バタン群。 18二例外バタン群、19:文字列分割手段、23:t
lt語辞澤インデックス探索手段、24;単Ji′!候
補テーブル、25:不連続域検出手段、26:未知9i
n候補表示手段、27:未知語候補のテーブル登録毛段
、30:未知語候補およびその位置情報を示すデータ、
31:単語辞書検索手段の空き検出手段、32:単語辞
書インデックス・辞書データ追加手段、33:単語辞書
インデックス・辞書データ生成制御テーブル、36:単
語辞書インデックス、37:単語辞書データ、38:ア
クセス調停手段、39;内部バス、Sl:外部記憶袋は
。 52:メインメモリCMEM)、53 :中央処理装贋
(CPU)、54.:表示装置(CRT)、55 :入
力装置(KB)、56:通信回線。

Claims (1)

    【特許請求の範囲】
  1. (1)音声や文字の認識処理、および自然言語の解析処
    理に用いる単語辞書を作成する単語辞書作成方式におい
    て、オペレータにより確認修正が施された入力文字列に
    対して、文字コード種別に基づく単語境界を検出し、該
    入力文字列を1個以上の単語領域に分割して、該単語領
    域に含まれる1個以上の単語候補を抽出し、該単語領域
    から、単語辞書に未登録の単語候補が存在する文字領域
    を検出して、該文字領域の文字列が単語として成立し、
    かつ単語辞書に未登録であると判定した場合、該文字領
    域を単語として単語辞書に追加登録することを特徴とす
    る単語辞書作成方式。
JP63318131A 1988-12-16 1988-12-16 単語辞書作成方式 Pending JPH02163874A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63318131A JPH02163874A (ja) 1988-12-16 1988-12-16 単語辞書作成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63318131A JPH02163874A (ja) 1988-12-16 1988-12-16 単語辞書作成方式

Publications (1)

Publication Number Publication Date
JPH02163874A true JPH02163874A (ja) 1990-06-25

Family

ID=18095853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63318131A Pending JPH02163874A (ja) 1988-12-16 1988-12-16 単語辞書作成方式

Country Status (1)

Country Link
JP (1) JPH02163874A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099091A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声認識装置及び音声認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099091A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声認識装置及び音声認識方法

Similar Documents

Publication Publication Date Title
JP4694111B2 (ja) 用例ベースの機械翻訳システム
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US7110939B2 (en) Process of automatically generating translation-example dictionary, program product, computer-readable recording medium and apparatus for performing thereof
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
CN111737979A (zh) 语音文本的关键词修正方法、装置、修正设备及存储介质
JPH02163874A (ja) 単語辞書作成方式
US8438007B1 (en) Software user interface human language translation
JP4283898B2 (ja) 文章校正装置
JP2001134602A (ja) 住所解析方法、装置、住所解析プログラムを記録した記録媒体
JP2621999B2 (ja) 文書処理装置
JPH0736686A (ja) 影響検索装置
JPH0765008A (ja) 用語登録制御方法及び同装置
US20250094828A1 (en) Knowledge graph for semantic searching of handwritten documents
KR20030068502A (ko) 번역 메모리를 이용한 번역 처리방법 및 이 번역소프트웨어를 기록한 판독 가능한 기록매체
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
JP2000207475A (ja) 文書作成装置及び文書作成プログラムを記録した機械読み取り可能な記録媒体
JP3278889B2 (ja) 機械翻訳装置
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JPH08305698A (ja) 自然語解析方法及び装置
JPH0736903A (ja) 翻訳支援装置
JP2951486B2 (ja) 漢字変換装置
JPH05108703A (ja) 機械翻訳機
JPS61183777A (ja) 言語解析装置の未登録語識別装置
JPS63136264A (ja) 機械翻訳装置
JPH05113993A (ja) 辞書登録方式