JPH0792800B2 - Connection cost table creation device - Google Patents
Connection cost table creation deviceInfo
- Publication number
- JPH0792800B2 JPH0792800B2 JP1051107A JP5110789A JPH0792800B2 JP H0792800 B2 JPH0792800 B2 JP H0792800B2 JP 1051107 A JP1051107 A JP 1051107A JP 5110789 A JP5110789 A JP 5110789A JP H0792800 B2 JPH0792800 B2 JP H0792800B2
- Authority
- JP
- Japan
- Prior art keywords
- connection
- cost
- group
- cost table
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 description 16
- 230000021615 conjugation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】 (産業上の利用分野) 本発明は日英機械翻訳システム、日本語テキスト音声合
成システム等の必須構成要素である日本語の形態素分割
処理において用いる接続コストテーブルの作成方式に関
するものである。DETAILED DESCRIPTION OF THE INVENTION (Industrial field of application) The present invention is a method of creating a connection cost table used in Japanese morpheme division processing, which is an essential component of Japanese-English machine translation systems, Japanese text-to-speech synthesis systems, and the like. It is about.
(従来の技術) 従来、単語の境界に空白などの切れ目がないという特徴
がある日本語テキストの解析を行なうために、単語の境
界を決定する形態素分割の種々の方式が提案されてい
る。これらには、たとえば「情報処理」第27巻第8号95
1ページに記載されているように、最長一致法、二文節
最長一致法、文節数最小法、拡張文節モデル上のコスト
最小法等の日本語形態素分割の技術が知られている。(Prior Art) Conventionally, various morpheme segmentation methods for determining word boundaries have been proposed in order to analyze Japanese text that is characterized in that word boundaries have no breaks such as spaces. These include, for example, "Information Processing" Vol. 27, No. 8, 95.
As described on page 1, Japanese morphological segmentation techniques such as longest-match method, two-bunsetsu longest-match method, minimum-bunsetsu number method, and minimum-cost method on extended bunsetsu model are known.
(発明が解決しようとする問題点) しかしながら、従来の形態素分割方式においては、文節
の数を最小にするという一種の最適化方式や、各単語固
有のコストを定義して、そのコストの和を最小にすると
いう最適化手法が用いられているものの、隣接する単語
候補間の接続のしやすさを統一的に、例えば加算のよう
な演算が可能な量として表現し、利用することがなかっ
たので、複数の区切り方が可能な場合に、より日本語と
して適切な区切り方を選択することが困難であった。こ
の問題を改良した方式として、接続カテゴリー間に接続
のコストを定義し、そのコストの累積が最小となるよう
な分割を出力するような形態素分割方式が考えられる
(特願昭63-201603号明細書)。(Problems to be Solved by the Invention) However, in the conventional morpheme division method, a kind of optimization method that minimizes the number of clauses and a cost unique to each word are defined, and the sum of the costs is calculated. Although the optimization method of minimizing it is used, the ease of connection between adjacent word candidates is expressed in a unified manner, for example, as an amount that can be calculated, such as addition, and never used. Therefore, it is difficult to select a proper delimiter for Japanese when multiple delimiters are possible. As a method to improve this problem, a morpheme division method that defines the cost of connection between connection categories and outputs the division that minimizes the accumulation of the cost can be considered (Japanese Patent Application No. 63-201603). book).
ところが、単語候補間の接続のしやすさをあらわす多値
のコストを、右向き・左向きの全接続カテゴリー間に定
義するには、大規模な多値マトリクスを作成せねばなら
ず、このようなデータを矛盾がないように作成・維持す
るのは非常に困難である。However, in order to define the multivalued cost, which indicates the ease of connection between word candidates, between all rightward and leftward connection categories, a large-scale multivalued matrix must be created. It is very difficult to create and maintain a consistent list.
本発明の目的は、このような多値のコストテーブルを容
易に生成することが可能な接続コストテーブル作成方式
を提供することにある。An object of the present invention is to provide a connection cost table creation method capable of easily creating such a multivalued cost table.
(問題を解決するための手段) 本発明は、接続カテゴリー間の接続の可否を記述する2
値の接続テーブルと、1つ以上の接続カテゴリーが属す
るグループの定義を記述するグループ定義テーブルと、
グループ間のコストを順に記述したグループ間コストテ
ーブルとを備える記憶手段と、グループ間コストテーブ
ルに記述された順に、グループに属する各接続カテゴリ
ー間の接続が可であれば、その接続カテゴリー間の接続
コストをそれらが属するグループ間のコストと同一の値
に設定することによって接続コストテーブルを生成する
制御手段とから構成されることを特徴とする。(Means for Solving the Problem) The present invention describes whether or not a connection between connection categories is possible.
A connection table of values and a group definition table that describes the definitions of the groups to which one or more connection categories belong,
If the connection between the connection categories belonging to the group is possible in the order described in the inter-group cost table and the storage means having the inter-group cost table describing the costs between the groups in order, the connection between the connection categories And a control means for generating a connection cost table by setting the cost to the same value as the cost between the groups to which they belong.
(作用) 接続カテゴリーは、たとえば片方向で200個程度に細か
く分かれているとしても、ある右(あるいは左)向きカ
テゴリーに対して、同程度に接続しやすい左(あるいは
右)向きカテゴリーが複数存在することがあり、これら
はその接続のしやすさを共通点としてあるまとまりを成
していると見ることができる。たとえば、《サ行五段活
用動詞語幹》という右向き接続カテゴリーに対して、
〈サ行五段活用動詞活用語尾・未然形〉、〈サ行五段活
用動詞活用語尾・連用形〉、〈サ行五段活用動詞活用語
尾・終止形〉、〈サ行五段活用動詞活用語尾・連体
形〉、〈サ行五段活用動詞活用語尾・仮定形〉、〈サ行
五段活用動詞活用語尾・命令形〉などの左向き接続カテ
ゴリーは、接続コストが同様にとても小さいことによ
り、グループとしてまとまっている。(Function) Even if the connection category is divided into about 200 in one direction, for example, there are multiple left (or right) facing categories that are equally easy to connect to a certain right (or left) facing category. It can be seen that they form a cohesive unit with their ease of connection in common. For example, for the right-handed connection category of "Sayuki Godan verb stem",
<Sa line 5 dan conjugation verb inflectional form>, <Sa line 5 verb conjugation verb inflection form>, <Sa line 5 dan conjugation verb inflection / termination form>, <Sa line 5 verb conjugation verb inflection form>・ Left-facing connection categories such as adnominal form, <sa line 5 verb conjugation verb ending / hypothesis form>, <sa line 5 verb conjugation verb ending / imperative form> are grouped because the connection cost is also very small. Are organized as
そこで、右向き(あるいは左向き)の接続カテゴリーの
集合において、左向き(あるいは右向き)に同じような
接続の性質をもつと考えられる接続カテゴリーを集めて
右向き(あるいは左向き)接続カテゴリーグループとい
うものを定義する。このグループ間の接続コストCを決
めてやれば、右向き接続カテゴリーrと左向き接続カテ
ゴリーlの間の接続コストc(r,l)は、以下に述べる
ようにして計算できる。Therefore, in a set of right (or left) connection categories, connection categories that are considered to have similar connection properties to the left (or right) are collected to define a right (or left) connection category group. If the connection cost C between the groups is determined, the connection cost c (r, l) between the rightward connection category r and the leftward connection category 1 can be calculated as described below.
c(r,l)=∞if b(r,l)=0. (1) c(r,l)=γif b(r,l)=1かつ (2) C(R,L)=γかつ r∈Rかつ1∈L. ここで、 b(r,l) :2値接続マトリクスの(r,l)要素。右向き
接続カテゴリーrと左向き接続カテゴリー1が接続可能
ならば1、そうでなければ0である。c (r, l) = ∞ if b (r, l) = 0. (1) c (r, l) = γ if b (r, l) = 1 and (2) C (R, L) = γ and r ∈ R and 1 ∈ L. where b (r, l): (r, l) element of the binary connection matrix. It is 1 if the rightward connection category r and the leftward connection category 1 are connectable, and 0 otherwise.
C(R,L) :右向き接続カテゴリーグループRと左向き
接続カテゴリーグループLの間の接続コスト。C (R, L): Connection cost between the rightward connection category group R and the leftward connection category group L.
∞ :接続不可能であることをあらわす。∞: Indicates that connection is impossible.
接続カテゴリーグループ間のコストを定義する表をグル
ープ間コストテーブルと呼ぶ。A table that defines costs between connection category groups is called an inter-group cost table.
(1)式、(2)式による多値接続コストの計算は、グ
ループ間コストテーブルにおける記述の順に行なう。The calculation of the multivalued connection cost by the equations (1) and (2) is performed in the order described in the inter-group cost table.
従って、あるグループの部分集合となっている、より特
殊なグループの接続コストを定義する必要がある場合
は、その、より特殊なグループに対するコスト定義をそ
れを含むグループに対するコスト定義の後方に記述して
おけばよい。Therefore, if you need to define a connection cost for a more specific group that is a subset of a group, write the cost definition for that more specific group after the cost definition for the containing group. You can leave it.
(実施例) 次に第1図を参照しつつ、実施例にしたがって本発明を
詳細に説明する。(Embodiment) Next, the present invention will be described in detail according to an embodiment with reference to FIG.
第1図は本発明の原理を実現するための一実施例であ
る。2値接続テーブル103は、2次元の行列であり、そ
のr行1列要素の値は、番号rであらわされる右向き接
続カテゴリーと番号であらわされる左向き接続カテゴリ
ーが接続可能ならば1であり、そうでないならば0であ
る。以下、2値接続テーブル103のr行1列要素をb
(r,l)と呼ぶ。FIG. 1 is an embodiment for realizing the principle of the present invention. The binary connection table 103 is a two-dimensional matrix, and the value of its r row and 1 column element is 1 if the rightward connection category represented by the number r and the leftward connection category represented by the number are connectable. Otherwise 0. Hereafter, the r-row 1-column element of the binary connection table 103 is set to b
Call it (r, l).
接続コストテーブル生成バッファ104は、2値接続テー
ブル103と同じ大きさの2次元行列を格納することが可
能なバッファである。この(r,l)要素をc(r,l)と呼
ぶ。The connection cost table generation buffer 104 is a buffer capable of storing a two-dimensional matrix having the same size as the binary connection table 103. This (r, l) element is called c (r, l).
第2図は、接続カテゴリーグループテーブル101の形式
をあらわす。このテーブルに接続カテゴリーグループの
定義を記述しておく。Li(i=1,2,‥‥)は、左向きカ
テゴリーグループ名であり、li1,li2,‥‥は、それに
属する左向き接続カテゴリーである。Ri(i=1,2‥
‥)は、右向きカテゴリーグループであり、ri1,ri2,
‥‥は、それに属する右向き接続カテゴリーである。FIG. 2 shows the format of the connection category group table 101. The definition of the connection category group is described in this table. L i (i = 1, 2, ...) Is a leftward category group name, and l i1 , l i2 , ... Is a leftward connection category that belongs to it. R i (i = 1,2 ...
) Is a right-facing category group, r i1 , r i2 ,
.. is a rightward connection category that belongs to it.
第3図は、グループ間コストテーブルをあらわす。この
テーブルにグループ間の接続コストを定義しておく。制
御部105はテーブルにおける記述の順に接続コストテー
ブル生成バッファ104への書込みを行なうので、グルー
プ間接続コストの定義は、一般的なものをより前方に、
特殊なものをより後方に記述する。Li,Riは、左向きお
よび右向き接続カテゴリーグループを、Ciはそれらの間
の接続コストをあらわす。FIG. 3 shows an inter-group cost table. The connection cost between groups is defined in this table. Since the control unit 105 writes to the connection cost table generation buffer 104 in the order of description in the table, the definition of the inter-group connection cost is as follows:
The special ones are described later. L i and R i represent leftward and rightward connection category groups, and Ci represents the connection cost between them.
制御部105は、次のように動作する。The control unit 105 operates as follows.
まず2値接続テーブル103を接続コストテーブル生
成バッファ104にコピーする。First, the binary connection table 103 is copied to the connection cost table generation buffer 104.
接続コストテーブル生成バッファ104の各要素を、
値が1ならば、デフォールトコスト保持部に登録されて
いるコストのデフォールトの値に書換え、値が0なら
ば、∞に書き換える。Each element of the connection cost table generation buffer 104,
If the value is 1, it is rewritten to the default value of the cost registered in the default cost holding unit, and if the value is 0, it is rewritten to ∞.
つぎにグループ間コストテーブル102を先頭から走
査して、グループ間コストテーブル102の各行に対して
以下の処理を行なう。Next, the inter-group cost table 102 is scanned from the beginning, and the following processing is performed on each row of the inter-group cost table 102.
Ri,Liに属するすべての右向きおよび左向き接続カテゴ
リーの順序対(rix,liy)に対して、もしb(rix,liy)
=1ならば、c(rix,liy)=Ciとする。For every ordered pair (r ix , l iy ) of right- and left-facing connection categories belonging to Ri, Li, if b (r ix , l iy )
If = 1, then c (r ix , l iy ) = C i .
以上の処理の結果、接続コストテーブル生成バッフ
ァ104の内容が接続コストテーブルとなる。As a result of the above processing, the content of the connection cost table generation buffer 104 becomes the connection cost table.
以上述べた手順で生成された接続コストテーブルを用い
て、形態素分割を行なう方法を第4図を用いて説明す
る。A method of performing morpheme division using the connection cost table generated by the procedure described above will be described with reference to FIG.
制御部401は、次のように動作する。The control unit 401 operates as follows.
入力テキスト保持部402に保持された入力テキスト
の各文字位置から始まるすべての形態素を辞書404を検
索して求める。The dictionary 404 is searched for all morphemes starting from each character position of the input text held in the input text holding unit 402.
上記の検索結果から、入力文のすべての可能な分割
を抽出する。Extract all possible divisions of the input sentence from the above search results.
抽出された各分割に対して、接続コストテーブル40
3を用いて接続コストの和を求める。Connection cost table 40 for each extracted partition
Use 3 to find the sum of connection costs.
接続コストの和が最小となるような分割を結果とし
て出力する。As a result, the division that minimizes the sum of connection costs is output.
(発明の効果) 以上述べたように本発明によると、複数の形態素分割の
可能性がある入力テキストに対して、単語のカテゴリー
間の隣接のしやすさに関するヒューリスティクスを記述
しておくことにより、より適切な形態素分割を行なうこ
とを可能とする接続コストテーブルを、容易に作成する
ことが可能となる。(Effect of the invention) As described above, according to the present invention, heuristics regarding the ease of adjacency between word categories are described for input text that may be divided into a plurality of morphemes. , It becomes possible to easily create a connection cost table that enables more appropriate morpheme division.
第1図は本発明の一実施例を示すブロック図である。第
2図は接続カテゴリーグループテーブルの形式を説明す
るための図、第3図は、グループ間コストテーブルを説
明するための図である。第4図は本発明の接続コストテ
ーブルを用いた形態素分割方式の例を説明するための図
である。 図において、 101……接続カテゴリーグループテーブル、102……グル
ープ間コストテーブル、103……2値接続テーブル、104
……接続コストテーブル生成バッファ、105……制御
部、106……デフォールコスト保持部、401……制御部、
402……入力テキスト保持部、403……接続コストテーブ
ル、404……辞書 をそれぞれあらわす。FIG. 1 is a block diagram showing an embodiment of the present invention. FIG. 2 is a diagram for explaining the format of the connection category group table, and FIG. 3 is a diagram for explaining the inter-group cost table. FIG. 4 is a diagram for explaining an example of a morpheme division method using the connection cost table of the present invention. In the figure, 101 ... Connection category group table, 102 ... Group cost table, 103 ... Binary connection table, 104
...... Connection cost table generation buffer, 105 …… Control unit, 106 …… Default cost holding unit, 401 …… Control unit,
402: Input text storage unit, 403: Connection cost table, 404: Represent dictionary.
Claims (1)
2値の接続テーブルと、1つ以上の接続カテゴリーが属
するグループの定義を記述するグループ定義テーブル
と、グループ間のコストを順に記述したグループ間コス
トテーブルとを備える記憶手段と、グループ間コストテ
ーブルに記述された順に、グループに属する各接続カテ
ゴリー間の接続が可であれば、その接続カテゴリー間の
接続コストをそれらが属するグループ間のコストと同一
の値に設定することによって接続コストテーブルを生成
する制御手段とから構成されることを特徴とする接続コ
ストテーブル作成装置。1. A binary connection table that describes whether or not a connection between connection categories is possible, a group definition table that describes the definition of a group to which one or more connection categories belong, and a group that describes costs between groups in order. If the connection between each connection category belonging to the group is possible in the order described in the inter-group cost table and the storage means having the inter-cost table, the connection cost between the connection categories is the cost between the groups to which they belong. And a control means for generating a connection cost table by setting the same value as the connection cost table creation device.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1051107A JPH0792800B2 (en) | 1989-03-02 | 1989-03-02 | Connection cost table creation device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP1051107A JPH0792800B2 (en) | 1989-03-02 | 1989-03-02 | Connection cost table creation device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH02297194A JPH02297194A (en) | 1990-12-07 |
| JPH0792800B2 true JPH0792800B2 (en) | 1995-10-09 |
Family
ID=12877580
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP1051107A Expired - Lifetime JPH0792800B2 (en) | 1989-03-02 | 1989-03-02 | Connection cost table creation device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH0792800B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10320421A (en) * | 1997-03-19 | 1998-12-04 | Ricoh Co Ltd | Document search method |
-
1989
- 1989-03-02 JP JP1051107A patent/JPH0792800B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH02297194A (en) | 1990-12-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2896634B2 (en) | Full-text registered word search device and full-text registered word search method | |
| CN107358208B (en) | A kind of PDF document structured message extracting method and device | |
| JPH0630066B2 (en) | Table type language translation method | |
| CN115203445A (en) | Multimedia resource searching method, device, device and medium | |
| WO2025242036A1 (en) | Document information extraction method and apparatus based on image-text modal fusion, and storage medium | |
| JPH0812668B2 (en) | Handwriting proofreading method | |
| JPH08314966A (en) | Document creating apparatus index creation method and document searching apparatus | |
| CN101452459A (en) | System and method for searching similar translation results by using index | |
| JPH0792800B2 (en) | Connection cost table creation device | |
| CN111968624A (en) | Data construction method and device, electronic equipment and storage medium | |
| US12333245B2 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons | |
| JPH0719261B2 (en) | How to display the next screen in machine translation | |
| US20120102030A1 (en) | Methods for text conversion, search, and automated translation and vocalization of the text | |
| JPS63221475A (en) | Parsing method | |
| US20080243798A1 (en) | Search device and recording medium | |
| CN119441395A (en) | A question-answering method, device and equipment based on a large model | |
| JPH06131391A (en) | Concept system generation method | |
| Wilkinson | Learning based Word Search and Visualisation for Historical Manuscript Images | |
| JP3020230B2 (en) | Dictionary compact device and natural language processing method | |
| JP2839515B2 (en) | Character reading system | |
| JP2601139B2 (en) | String search device | |
| CN121279253A (en) | PDF self-adaptive blocking method, device, equipment, medium and product | |
| JP5343812B2 (en) | Example device, program, and method of word or combination of words in patent document | |
| CN121146042A (en) | A method, apparatus, medium, and equipment for question answering long PDF files based on a multimodal model. | |
| CN118133970A (en) | A knowledge question answering method, device, equipment and medium based on associated pictures |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071009 Year of fee payment: 12 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081009 Year of fee payment: 13 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091009 Year of fee payment: 14 |
|
| EXPY | Cancellation because of completion of term | ||
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091009 Year of fee payment: 14 |