JPH0512331A - 結合価構造解析方式 - Google Patents

結合価構造解析方式

Info

Publication number
JPH0512331A
JPH0512331A JP3186797A JP18679791A JPH0512331A JP H0512331 A JPH0512331 A JP H0512331A JP 3186797 A JP3186797 A JP 3186797A JP 18679791 A JP18679791 A JP 18679791A JP H0512331 A JPH0512331 A JP H0512331A
Authority
JP
Japan
Prior art keywords
valence
classification code
dictionary
frame
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3186797A
Other languages
English (en)
Inventor
Junko Komatsu
順子 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3186797A priority Critical patent/JPH0512331A/ja
Publication of JPH0512331A publication Critical patent/JPH0512331A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 実用性のある結合価辞書および分類コード辞
書を容易にかつ精度良く作成可能である。 【構成】 第1の結合価フレーム作成部2は、受け単語
が共通な係り受け事例を表層的な類似性からグループ分
けし1次結合価辞書3を作成する。第1の分類コード付
与部4では、1次結合価辞書3を参照し、同一の結合価
フレームの同一スロットに属する単語に同一分類コード
を付与し1次単語分類コード辞書5を作成する。第2の
結合価フレーム作成部6ではさらに、受け単語が共通な
係り受け事例を、表層的な類似性とともに係り単語に付
加された1次単語分類コード間の類似性をも考慮してグ
ループ分けし2次結合価辞書7を作成する。第2の分類
コード付与部8では、2次結合価辞書7を参照し、第1
の分類コード付与部4と同様の手順で2次単語分類コー
ド辞書9を作成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語ワードプロセッ
サにおける仮名漢字変換やテキスト音声合成システムの
言語解析等の種々の自然言語解析に利用される結合価構
造解析方式に関する。
【0002】
【従来の技術】一般に、種々の自然言語解析において
は、解析結果が一意に定まらない場合が多い。例えば、
日本語ワードプロセッサにおける仮名漢字変換では、同
音語(読みが同じで表記が異なる単語)があるために、
また、テキスト音声合成システムの言語解析では、同形
語(表記が同じで読みが異なる単語)があるために、そ
の解析結果が一定に定まらないことがある。
【0003】このような瞬昧性を解消するために、従
来、例えば1987年7月24日発行の文献「自然言語
処理 62−6 第39頁乃至第44頁」に開示されて
いるように、動詞などの用言とその支配要素である格要
素との結び付きを結合価パターンとして記述し、この結
合価パターンをベースとした解析方式が知られている。
【0004】この種の解析方式においては、それぞれの
用言のもつ結合価構造を適当な枠組みに形式化し、結合
価パターンとして結合価辞書に記述し、また、格助詞が
とりうる名詞に対し意味分類を作成するようになってい
る。
【0005】
【発明が解決しようとする課題】ところで、上述したよ
うな従来の解析方式において、結合価辞書,すなわち結
合価パターンの作成および意味分類の作成は、通常、人
手を介して行なわれている。しかしながら、自然言語解
析等では実際に利用する単語数が多く、また同じ単語で
も文脈や使用分野等によって様々な意味をもつため、実
用性のある結合価辞書およびそれと整合性のとれた意味
分類を人手によって作成するのは非常に困難である。一
方、係り受け事例から自動的に結合価フレームを抽出し
ようという試みがなされているが、その際に用いる名詞
の意味分類は人手でトップダウンに与えているため、必
ずしも適切な結合価フレームが得られていない。このよ
うに、従来では、実用性のある結合価辞書およびそれと
整合性のとれた意味分類を容易にかつ精度良く作成する
ことができないという欠点があった。
【0006】本発明は、実用性のある結合価辞書および
それと整合性のとれた意味分類を容易にかつ精度良く作
成することが可能な結合価構造解析方式を提供すること
を目的としている。
【0007】
【課題を解決するための手段】上記目的を達成するため
に本発明は、受け単語を共通にする係り受け事例をグル
ープ分けし結合価フレームを作成する結合価フレーム作
成手段と、同一の結合価フレームの同一スロットに属す
る単語に同一の分類コードを付加し、単語分類コード辞
書を作成する分類コード付与手段とを有し、前記結合価
フレーム作成手段は、受け単語を共通にする係り受け事
例を、表層的な類似性とともに、係り単語に付加された
分類コード間の類似性をも加味してグループ分けし、最
終的な結合価フレームを作成するようになっていること
を特徴としている。
【0008】また、上記結合価フレーム作成手段は、自
己が作成した結合価フレームに基づいて分類コード付与
手段が作成した単語分類コード辞書を参照して、結合価
フレームを逐次更新するように構成されていることを特
徴としている。
【0009】また、上記分類コード付与手段は、同一の
結合価フレームの同一スロットに属する単語に同一の分
類コードを付加すると同時に、各単語に予め人手により
用意した意味分類コードをも付け加えて単語分類コード
辞書を作成するようになっていることを特徴としてい
る。
【0010】
【作用】本発明では、受け単語を共通にする係り受け事
例を、表層的な類似性とともに、係り単語に付加された
分類コード間の類似性をも加味して、最終的な結合価フ
レームを作成する。
【0011】
【実施例】以下、本発明の一実施例を図面に基づいて説
明する。図1は本発明の一実施例のブロック図であり、
本実施例では、係り受け事例を記憶する係り受け事例デ
ータベース1と、係り受け事例データベース1に記憶さ
れている係り受け事例について、受け単語を共通にする
係り受け事例を表層的な類似性からグループ分けしこれ
を1次の結合価フレームとして作成して1次結合価辞書
3に記述する第1の結合価フレーム作成部2と、第1の
結合価フレーム作成部2で作成された1次結合価辞書3
を参照し、同一の結合価フレームの同一スロットに属す
る単語に同一の分類コードを付与して1次単語分類コー
ド辞書5を作成する第1の分類コード付与部4と、係り
受け事例データベース1に加えて1次単語分類コード辞
書5をも参照し、受け単語を共通にする係り受け事例
を、表層的な類似性とともに係り単語に付加された分類
コード間の類似性をも考慮してグループ分けしこれを2
次の結合価フレームとして作成して2次結合価辞書7に
記述する第2の結合価フレーム作成部6と、第2の結合
価フレーム作成部6で作成された2次結合価辞書7を参
照し、同一の結合価フレームの同一スロットに属する単
語に同一の分類コードを付与して2次単語分類コード辞
書9を作成する第2の分類コード付与部8とが設けられ
ている。
【0012】次にこのような構成における結合価構造解
析処理について説明する。なお、以下では、説明を簡単
にするため、受け単語として用言を中心とした係り受け
事例のみを扱うものとする。
【0013】先づ、第1の結合価フレーム作成部2で
は、ある用言を中心とした係り受け事例間の類似度d1
を求める。類似度d1は、係り受け事例間の表層的な類
似性(ここでは、用言がとる格助詞の類似性)を反映す
るように定義され、例えば次式のように定められる。
【0014】
【数1】
【0015】ここで、iは格助詞の種類(“に”,
“を”,“が”,“から”,“へ”,“で”,“よ
り”,“と”のいずれか)を表わし、nは格助詞の種類
数(“8”)であり、Kiは係り受け事例である。ま
た、δ(i)は格スロット,すなわち格助詞iが存在す
るときには“1”,格スロット,すなわち格助詞iが存
在しないときには“0”となる関数であり、w(i)は
格助詞iに対する重みを表わしている。なお、ここで、
格スロットとは、格助詞の他に、格助詞の前に存在する
単語(名詞)をも含ませた単位を指している。
【0016】このようにして、ある用言を中心とした係
り受け事例間の類似度d1を求めた後、第1の結合価フ
レーム作成部2では、d1≧TH1の事例をまとめてい
くつかのグループを作り、それを1次の結合価フレーム
として作成する。なお、TH1は所定の閾値である。こ
のような処理を係り受け事例データベース1中の全ての
用言について行なって1次結合価辞書3を作成する。
【0017】次いで、第1の分類コード付与部4では、
1次結合価辞書3を参照し、同一の結合価フレームの同
一の格スロットに属する単語(例えば名詞)に同一の分
類コードを付与する。なお、1つの単語(名詞)に付与
される分類コードの種類は、その単語(名詞)が係り受
け事例データベース1中に出現した頻度数だけ存在する
ことになる。
【0018】第1の分類コード付与部4により上記のよ
うにして1次単語分類コード辞書5が作成された後、第
2の結合価フレーム作成部6では、係り受け事例データ
ベース1中の同じ係り受け事例について、係り受け事例
間の類似度d2を求めるが、この場合、類似度d2は、
その用語がとる格助詞の類似性のみでなく、その格助詞
を介してその用言に係る単語(名詞),すなわち係り単
語の分類コード間の類似性,すなわち格スロット内の単
語(名詞)の分類コード間の類似性をも加味したものと
して求められる。具体的には、先づ格スロット内の単語
(名詞)に類似性があるか否かを、例えば、次式の類似
度dwに基づき判定する。
【0019】
【数2】
【0020】ここで、N(W1),N(W2)は各単語
(名詞)W1,W2に付加された意味分類コード数であ
り、N(W12)は単語(名詞)W1,W2に共通する意味
分類コード数である。第2の結合価フレーム作成部6
は、数2に基づき、格スロットに属する全ての単語(名
詞)間の類似度dwの最小値dwminが所定の閾値TH
2に対しdwmin≧TH2の関係を満たすときに、格ス
ロット内の単語(名詞)に類似性があると判定する。
【0021】このようにして、格スロット内の単語(名
詞)について類似性を判定した後、第2の結合価フレー
ム作成部6は、数1におけるδ(i)の定義を、格スロ
ット内の名詞に類似性があるときに“1”,格スロット
が存在するときには“0.5”,格スロットが存在しな
いときには“0”というように変更して定義した上で、
数1を用いて類似度d2を求める。
【0022】しかる後、d2≧TH1の事例をまとめて
いくつかのグループを作り、それを2次の結合価フレー
ムとして作成する。
【0023】この結果、ある用言を共通にする係り受け
事例を、同一の格スロットに基づく表層的な類似性とと
もに、同一格スロット内の単語(名詞)の分類コード間
の類似性をも考慮してグループ分けし、2次の結合価フ
レームとして作成することができ、2次結合価辞書7を
作成することができる。
【0024】しかる後、第2の分類コード付与部8で
は、2次結合価辞書7内の同一格フレームの同一格スロ
ットに含まれる単語(名詞)に同一の分類コードを付加
し、2次単語分類コード辞書9を作成することができ
る。
【0025】次に、上記処理の具体例を図2(a),
(b),(c)により説明する。いま、例えば、係り受
け事例データベース1に図2(a)のような係り受け事
例があるとすると、第1の結合価フレーム作成部2で
は、図2(b)のような1次の結合価フレームを作成す
る。すなわち、図2(a)の係り受け事例は、動詞“か
わす”を共通の用言とする係り受け事例であり、第1の
結合価フレーム作成部2は、この係り受け事例から、用
言がとる格助詞として、先づ、“を”と“が”とを抽出
し、次いで、同一の格助詞“を”の格スロットに属する
名詞として、“意見”,“体”,“批判”を抽出し、ま
た、同一の格助詞“が”の格スロットに属する名詞とし
て“会”を抽出し、これにより、図2(b)に示すよう
な1次の結合価フレームを作成する。
【0026】また、図2(b)において、左端の英数字
列は、1次の結合価フレームが作成された後に第1の分
類コード付与部4によって付与された分類コードを表わ
しており、上記同一格スロットに属する名詞,例えば
“意見”,“体”,“批判”には同一の分類コード“0
0610W”が付与されている。
【0027】ところで、図2(a)の係り受け事例から
わかるように、図2(b)のように作成された1次の結
合価フレームにおいて、同一格スロットに属する名詞
“意見”,“体”,“批判”のうち、“意見”,“批
判”は、その意味が類似しているととらえることができ
るが、“体”は上記2つの名詞と意味が類似していな
い。
【0028】第2の結合価フレーム作成部6では、さら
に同一格スロット内の名詞に類似性があるか否かをも判
定し、この類似性をも加味して、2次の結合価フレーム
を作成するようになっており、これにより、図2(b)
に示す1次の結合価フレームは、図2(c)に示すよう
な2次の結合価フレームに更新される。図2(c)から
わかるように、図2(b)において同じ分類コードが付
加されていた同一格スロットに属する名詞“意見”,
“体”,“批判”は、名詞の類似性が加味された結果、
名詞“意見”,“批判”については、同一の結合価フレ
ームを構成するものと判断されて同じ分類コードが付加
されるが、名詞“体”については、別の結合価フレーム
を構成するものと判断されて別の分類コードが付加され
る。
【0029】このようにして、本実施例によれば、表層
的な類似性とともに係り単語に付加された分類コード間
の類似性をも考慮して結合価フレーム並びに分類コード
が自動的に作成されるので、人手を介さずに結合価辞書
およびそれと整合性のとれた意味分類を容易に作成する
ことが可能となる。
【0030】この際に、係り受け事例データベース1を
ユーザの利用分野に適応した事例によって構成すれば、
これに基づきユーザの利用分野に適応した精度の高い実
用的な結合価辞書および意味分類を作成することができ
る。
【0031】なお、上述の実施例において、第2の結合
価フレーム作成部6としては、2次単語分類コード辞書
9をも参照可能に構成することができて、この場合に
は、第2の結合価フレーム作成部6は、第2の分類コー
ド付与部8によって2次単語分類コード辞書9が作成さ
れたときに、係り受け事例データベース1とともにこの
2次単語分類コード辞書9をも参照して、第2の結合価
フレームを再度作成し2次結合価辞書7を逐次更新する
ことができ、さらに、2次単語分類コード辞書9をも逐
次更新することができる。従って、このような一連の処
理を何回か繰り返せば結合価辞書7および2次単語分類
コード辞書9の精度を一層向上させることができる。
【0032】また、実際に係り受け事例解析などの瞬昧
性解消のためには、最終的に作られた結合価辞書7と2
次単語分類コード辞書9を用い、比較したい解析解をK
1,K2とすると、結合価辞書中の結合価フレームと
1,K2との類似度を結合価フレーム作成部6における
と同様にして求め、類似度が大きい方を最もらしい解と
判断すれば良い。
【0033】また、図1においては、説明の便宜上、第
1の結合価フレーム作成部2と第2の結合価フレーム作
成部6,第1の分類コード付与部4と第2の分類コード
付与部8とがそれぞれ別個に設けられているが、これら
を1つの結合価フレーム作成部,分類コード付与部とし
てまとめることもできる。この場合、1次単語分類コー
ド辞書5,2次単語分類コード辞書9も単語分類コード
辞書として1つにまとめることができ、1つの単語分類
コード辞書としてまとめたときには、2次単語分類コー
ド辞書9は1次単語分類コード辞書5を更新したものと
してとらえることができる。
【0034】さらに、上述の実施例では、分類コード付
与部において、同一の結合価フレームの同一スロットに
属する単語に同一の分類コードを付加しているが、これ
と同時に、各単語に予め人手で用意した意味分類コード
も付け加えて単語分類コード辞書を作成すれば、係り受
け事例数が比較的少ない場合でも精度の高い結合価辞書
および単語分類コード辞書を作成することができる。
【0035】
【発明の効果】以上に説明したように本発明によれば、
受け単語を共通にする係り受け事例を、表層的な類似性
とともに、係り単語に付加された分類コード間の類似性
をも加味して、最終的な結合価フレームを作成するよう
にしているので、実用性のある結合価辞書およびそれと
整合性のとれた意味分類を容易にかつ精度良く作成する
ことができる。
【0036】結合価フレーム作成手段が、自己の作成し
た結合価フレームに基づいて分類コード付与手段が作成
した単語分類コード辞書を参照して、結合価フレームを
逐次更新するように構成されていれば、結合価辞書(結
合価フレーム)並びに単語分類コード辞書の精度を逐次
向上させることができる。
【0037】さらに、同一の結合価フレームの同一スロ
ットに属する単語に同一の分類コードを付加すると同時
に、各単語に予め人手により用意した意味分類コードを
も付け加えて単語分類コード辞書を作成するように分類
コード付与手段が構成されていれば、係り受け事例数が
比較的少ない場合であっても精度の高い結合価辞書およ
び単語分類コード辞書を作成することができる。
【図面の簡単な説明】
【図1】本発明の一実施例のブロック図である。
【図2】(a),(b),(c)は結合価構造解析処理
の具体例を示す図である。
【符号の説明】
1 係り受け事例データベース 2 第1の結合価フレーム作成部 3 1次結合価辞書 4 第1の分類コード付与部 5 1次単語分類コード辞書 6 第2の結合価フレーム作成部 7 2次結合価辞書 8 第2の分類コード付与部 9 2次単語分類コード辞書

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 受け単語を共通にする係り受け事例をグ
    ループ分けし結合価フレームを作成する結合価フレーム
    作成手段と、同一の結合価フレームの同一スロットに属
    する単語に同一の分類コードを付加し、単語分類コード
    辞書を作成する分類コード付与手段とを有し、前記結合
    価フレーム作成手段は、受け単語を共通にする係り受け
    事例を、表層的な類似性とともに、係り単語に付加され
    た分類コード間の類似性をも加味してグループ分けし、
    最終的な結合価フレームを作成するようになっているこ
    とを特徴とする結合価構造解析方式。
  2. 【請求項2】 前記結合価フレーム作成手段は、自己が
    作成した結合価フレームに基づいて分類コード付与手段
    が作成した単語分類コード辞書を参照して、結合価フレ
    ームを逐次更新するように構成されていることを特徴と
    する請求項1記載の結合価構造解析方式。
  3. 【請求項3】 前記分類コード付与手段は、同一の結合
    価フレームの同一スロットに属する単語に同一の分類コ
    ードを付加すると同時に、各単語に予め人手により用意
    した意味分類コードをも付け加えて単語分類コード辞書
    を作成するようになっていることを特徴とする請求項1
    または2記載の結合価構造解析方式。
JP3186797A 1991-07-01 1991-07-01 結合価構造解析方式 Pending JPH0512331A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3186797A JPH0512331A (ja) 1991-07-01 1991-07-01 結合価構造解析方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3186797A JPH0512331A (ja) 1991-07-01 1991-07-01 結合価構造解析方式

Publications (1)

Publication Number Publication Date
JPH0512331A true JPH0512331A (ja) 1993-01-22

Family

ID=16194758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3186797A Pending JPH0512331A (ja) 1991-07-01 1991-07-01 結合価構造解析方式

Country Status (1)

Country Link
JP (1) JPH0512331A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5973218A (en) * 1997-07-08 1999-10-26 Asahi Kasei Kogyo Kabushiki Kaisha Process for producing cycloolefin
US7947859B2 (en) 2005-08-26 2011-05-24 Asahi Kasei Chemicals Corporation Process for production of cycloolefin

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5973218A (en) * 1997-07-08 1999-10-26 Asahi Kasei Kogyo Kabushiki Kaisha Process for producing cycloolefin
US7947859B2 (en) 2005-08-26 2011-05-24 Asahi Kasei Chemicals Corporation Process for production of cycloolefin

Similar Documents

Publication Publication Date Title
US5634084A (en) Abbreviation and acronym/initialism expansion procedures for a text to speech reader
Abney Chunks and dependencies: Bringing processing evidence to bear on syntax
Kondrak Algorithms for language reconstruction
US11113470B2 (en) Preserving and processing ambiguity in natural language
CN109684642B (zh) 一种结合页面解析规则和nlp文本向量化的摘要提取方法
EP1331574B1 (en) Named entity interface for multiple client application programs
KR102557380B1 (ko) 지식 임베딩 모델 기반의 개체명 인식 모델 생성 장치 및 방법
EP3916576A1 (en) Global address parser
CN109543036A (zh) 基于语义相似度的文本聚类方法
Argamon-Engelson et al. A memory-based approach to learning shallow natural language patterns
CN114780577B (zh) Sql语句生成方法、装置、设备及存储介质
Florian et al. Coaxing Confidences from an Old Freind: Probabilistic Classifications from Transformation Rule Lists
KR102778514B1 (ko) 토크나이징 기반의 검진 데이터 분석 장치 및 방법
Ross Jr et al. EYEBALL: a computer program for description of style
JPH0512331A (ja) 結合価構造解析方式
Ayadi et al. Intertextual distance for Arabic texts classification
Oflazer Morphological processing for Turkish
Akinwonm Development of a prosodic read speech syllabic corpus of the yoruba language
Maheswari et al. Rule based morphological variation removable stemming algorithm
Selamat Improved N-grams approach for web page language identification
Akeel et al. Divergence and ambiguity control in an English to Arabic machine translation
Olivo et al. Crfpost: Part-of-speech tagger for filipino texts using conditional random fields
King Contextual factors in Chinese pinyin writing
JP2983024B2 (ja) 自然言語処理装置
Xia et al. Realistic Training Data Generation and Rule Enhanced Decoding in LLM for NameGuess

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 9

Free format text: PAYMENT UNTIL: 20080723

LAPS Cancellation because of no payment of annual fees