JPH07219951A - 特殊範囲抽出装置および文抽出装置 - Google Patents

特殊範囲抽出装置および文抽出装置

Info

Publication number
JPH07219951A
JPH07219951A JP6008260A JP826094A JPH07219951A JP H07219951 A JPH07219951 A JP H07219951A JP 6008260 A JP6008260 A JP 6008260A JP 826094 A JP826094 A JP 826094A JP H07219951 A JPH07219951 A JP H07219951A
Authority
JP
Japan
Prior art keywords
sentence
range
special range
special
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6008260A
Other languages
English (en)
Other versions
JP3616126B2 (ja
Inventor
Tadashi Nagano
正 永野
Hideko Kurita
秀子 栗田
Takao Fukushige
貴雄 福重
Masanori Takahashi
雅則 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP00826094A priority Critical patent/JP3616126B2/ja
Publication of JPH07219951A publication Critical patent/JPH07219951A/ja
Application granted granted Critical
Publication of JP3616126B2 publication Critical patent/JP3616126B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 自然言語における台詞、括弧、引用部等の特
殊領域を抽出する装置、及び、その結果を利用して文の
区切りを特定する装置に関するものである。 【構成】 特殊範囲設定部2は特殊範囲定義記憶部7に
記憶された特殊範囲の再帰的な定義に基づき、設定範囲
記憶部5に記憶されたすでに特定した特殊範囲を参照し
ながら再帰的に特殊範囲を設定する。文区切設定部6
は、その結果を利用し、文末情報格納部8に格納された
文末表現に基づき文の区切を設定する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書処理および自然言語
処理における、引用、括弧、台詞等からなる特殊範囲を
設定、抽出する特殊範囲抽出装置および、複数の文を含
む電子化電子化テキストデータから文の区切りを特定す
る文抽出装置に関するものである。
【0002】
【従来の技術】従来、自然言語のテキストデータの引
用、括弧、台詞などの特殊領域の判定はテキストの先頭
から見ていって引用符の出現の度に引用内、引用外を切
り替える方法などがあった。
【0003】また、テキストを1文毎に分割して自然言
語処理を行うような場合、ピリオドやクエスションマー
クなどの終端記号が出現する場所を無条件で区切りとす
るなどの方法がとられていた。また関連する技術とし
て、言語コンパイラなどでは、BNF記法などの形式で
記述された規則をテキストデータに適用することによっ
て、括弧や引用符の対応関係を決定する方法があった。
【0004】
【発明が解決しようとする課題】引用符の出現によって
引用範囲の内と外を切り替える方法を用いた場合、引用
符自体が別の引用符や括弧で囲われている可能性を無視
するため、誤った範囲を抽出することがあった。それゆ
え自然言語に出現する多種類の引用や括弧を高精度に抽
出することはできなかった。また、クォーテーションマ
ークで囲われた引用部分の抽出などにおいては、一度あ
るマークが開始記号であるか終了記号であるかを取り違
えると、その誤りによって他の引用部分の判定まで間違
える場合が多かった。
【0005】一方、計算機言語のコンパイラなどで使用
される、文法規則によって括弧などの対応関係を決定す
る方法は、入力の形式を限定するために、任意の自然言
語のテキストに適用することはできなかった。
【0006】また、文抽出処理において、引用を考慮し
ないと、引用符によって囲まれた文をその一部として含
む文が出現した場合に複数の文に分割されてしまうとい
う問題があった。特に引用領域内に複数の文が存在する
場合には、それらの文同士の区切りの位置は周辺の状況
が一般の文の区切りとかわらないため、区切りとして認
識されてしまい、引用を含む文全体が1つの文として認
識できなかった。
【0007】これをさける為に従来の方法による引用や
括弧の範囲を認識する方法をとろうとしても、上記の引
用範囲抽出における問題によって引用の範囲を間違う場
合が多いため、その影響により高精度な文の切り出しが
できなかった。
【0008】なお、まとまった文章に対する従来の方法
での文切り出しの例を図9に示す。ここでは、「 "."
か "?" か "!" のどれかがが出現し、かつ空白を挟んだ
次の文字が大文字か引用符であるときに限り文の区切り
を設定する」という規則を用いている。その結果切り出
された文を図10に示す。
【0009】このうち、文1、文2、文3、文5、文
7、文8は、正しく切り出されているが、文4、文6、
文11は引用符の片方だけがついた、文として不自然な
形で切り出されている。また、文9は、引用の途中で区
切られてしまっている。文4、文6、文9、文11のよ
うに不自然な形の「文」は、構文解析して情報抽出など
の計算機による処理を行おうとするとき、重大な阻害要
因となる。
【0010】
【課題を解決するための手段】上記課題を解決するため
の本願発明による特殊範囲抽出装置は、引用や括弧の範
囲決定に際し、種類を問わず、間にそれを囲っている引
用符や括弧記号が存在しないものだけを引用/括弧範囲
として設定し、以後は、既に設定された引用/括弧範囲
と矛盾しないようにより外側の引用/括弧を決定するこ
とによって、高精度に引用/括弧範囲を決定することが
できる。このことは範囲を設定する度にその範囲を記憶
し、以降の処理にでそれをアクセスできるように構成す
ることによって実現できる。
【0011】また、文抽出装置は、上記の手段により抽
出された引用や括弧の範囲を用いて、この範囲の途中を
文の区切りとすることを禁止することにより、台詞など
の引用符などに挾まれた別の文を含む文をも途中で切断
されることなく高精度に抽出する。
【0012】
【作用】特殊範囲設定部は、入力テキスト中の特定の条
件を満たす範囲を条件を満たす領域が存在しなくなるま
で繰り返し設定する。そのときテキスト中のある位置に
すでにそのような範囲が設定されているかどうかを条件
中に書くことができるように構成する。特殊範囲設定部
は範囲を設定する度に設定範囲記憶部に設定範囲を登録
し、以後の処理で条件を満たすかどうかを判定する際に
設定された領域を参照して判定する。特殊範囲設定部
は、条件を満たす領域が存在しなくなった時点で、それ
までに設定したすべての領域を出力する。
【0013】また、文抽出装置では、特殊範囲設定部の
出力情報が文区切設定部へ送られる。文区切設定部で
は、括弧区切り範囲設定部で設定された範囲の途中の位
置を除外して、残りの範囲の終端文字列だけを文区切り
の候補とし、他の条件を調べて文区切りを設定する。
【0014】
【実施例】図1は本発明の一実施例である。本実施例で
は対象言語を英語とする。図1において、1はテキスト
を入力する入力部、7は特定の記号を用いた条件により
特殊範囲を再帰的に定義した特殊範囲定義記憶部、2は
入力されたテキスト中の引用や括弧等、7の定義に基づ
き特殊範囲を推定する特殊範囲設定部、3は抽出した引
用や括弧等の範囲及び文を出力する出力部、4は「it'
s」のように引用を囲う以外の目的でシングルクオート
が使用されるパターンを記憶しておくSQ除外リスト、
5は設定した引用や括弧の範囲を記憶する設定範囲記憶
部である。
【0015】8は、文末になりうる文字または文字列情
報を格納した文末情報格納部、6は、設定した引用や括
弧の範囲と文末情報格納部8に格納された文末情報とか
ら文の区切りを設定する文区切り設定部であるが、これ
を用いた動作は後述し、ここでの実施例では特殊範囲推
定部の出力をそのまま出力して特殊範囲抽出装置として
用いる。
【0016】入力は一般的な英文のテキストである。特
殊範囲設定部2は、入力された英語テキストに対して後
述するアルゴリズムを用いて括弧や引用の範囲を推定
し、設定する。以後、このように設定された範囲を特殊
範囲と呼ぶことにする。設定した範囲の最終結果は、フ
ァイルの先頭からの位置を表す数値のペアの集合によっ
て表され、入力されたテキストと共に出力部3へ送られ
る。出力部3では、得られた情報に基づいて切り出され
た引用部分を表示する。
【0017】以後の説明の便宜の為に、文字の集合をい
くつか定義する。これを(表1)に示す。また、特殊範
囲定義記憶部7に記憶されている特殊範囲の判定条件を
(表2)に示す。
【0018】
【表1】
【0019】
【表2】
【0020】(表2)中では、スペース文字、タブ文
字、改行文字のいづれかであることを「空白である」、
そうでないことを「空白でない」と呼ぶ。図2に特殊範
囲設定部の動作を表すフローチャートを示す。これは
(表2)の条件を満たすような特殊範囲設定だけを設定
するためのアルゴリズムとなっている。
【0021】図2に従って括弧/引用範囲推定部の動作
を説明する。動作は、基本的には入力された電子化テキ
ストファイルに対して特殊範囲定義記憶部7に定義1〜
定義6として格納された6つの判定条件にマッチする範
囲があるかどうかを捜し、あればそこを特殊範囲として
登録する、ということを条件を満たすような範囲がなく
なるまで繰り返す。
【0022】配列変数 stat[] はファイル内の各位置が
特殊範囲内であるかどうかを示す変数である。位置iが
特殊範囲内であれば stat[i] = 1 となり、そうでなけ
れば stat[i] = 0 となる。なお、stat[] は、図1にお
ける設定範囲記憶部5に相当する記憶領域である。最初
に stat[]の要素に全て0を代入しておく。2次元配列
変数ans[][] は特殊範囲を登録するためのものである。
X番目設定された各特殊範囲について、その開始位置が
ans[X][1]に、終了位置に ans[X][2] に登録されるこ
とになる。登録されていないときはー1にすると定義し
ておく。最初にすべてのansの要素にー1を代入する。
また、ans[][]用のポインタans_maxに0を代入してお
く。
【0023】次の「初期設定」というサブルーチンは、
各種の特殊範囲の設定サブルーチン内で使用する変数の
初期化などを行うものであり、「""」に関する処理を例
として後述する。
【0024】変数 change は図2におけるループの過程
で設定が行われたかどうかを表すフラグである。処理の
始めにこれを0(設定が行われていない)に初期化して
おく。順番は問わないが、ここでは「""」にはさまれた
部分の処理から始まって、各種の引用、括弧記号につい
て順番に設定を行う。
【0025】これらのサブルーチン内の具体的な動作に
ついては後述するが、これらはその時点で表2の各条件
を満たすような範囲を抽出するサブルーチンである。結
果として設定される場合もされない場合もありうる。各
サブルーチンでは、設定が行われた場合にのみ変数chan
geに1を設定する。
【0026】全ての種類の特殊範囲の設定を試みたあ
と、changeが0であれば、それ以上は特殊範囲が設定で
きないことになるので、処理を終了する。change が1
であれば、少なくとも1回は設定が行われたことになる
ので、change を0に設定し直してもう一度処理を始め
る。以上はループが終わってもchangeが0のままである
ような状態になるまで繰り返す。
【0027】なお、判定条件1〜6は再帰的に記述され
ているので、設定が行われるにつれて、今まで条件を満
たさないような領域が条件を満たすようになることがあ
りうる。
【0028】例として、「"Did you say, "What a pit
y"?", the man said. 」という部分を含むテキストの入
力に対して条件1(定義1)を考える。テキストが入力
された時点では、特殊範囲は1つも設定されていないの
で、「"Did you say, "Whata pity"?"」という部分は定
義1の条件1[4]を満たさないので、条件1全体も満た
さない。しかし、「"What a pity"」という部分は条件
1を満たすので、その範囲が特殊範囲として設定され
る。この結果、これを設定したあとでは、「"Didyou sa
y, "What a pity"?"」という部分中の両端の「"」の間
にある「”」は全て「"What a pity"」という「他の特
殊範囲」に含まれることとなり、条件1の[4]は今度は
満たされ、「"Did you say, "What a pity"?"」が特殊
範囲として設定される。
【0029】次に、図2中の各サブルーチンの動作につ
いて説明する。図3が「""にはさまれた特殊範囲の設
定」の処理のための「初期設定」のフローチャートであ
り、図4が「""にはさまれた特殊範囲の設定」のサブル
ーチン本体のフローチャートである。これらを例として
動作を説明する。他のサブルーチン及び初期化もほぼ同
様にして実現できる。
【0030】図3では、初期設定として、テキスト中の
全ての「"」の出現する位置をテキストの先頭位置から
の文字数によってあらわしたものを配列 dq[]に先頭か
ら順番に代入していく。また出現した「"」の個数を変
数 dq_max に代入する。
【0031】次に図4に即して「""にはさまれた特殊範
囲の設定」のサブルーチンの動作を説明する。 4-1,4-
2,4-3,4-4の部分では、間に「特殊範囲内ではない位置
にある「"」記号が存在しないような2つの「"」のペア
を捜す。そのようなペアが存在すれば処理4-5が始まる
時点で、それらの位置がdq[i]とdq[j]に代入されてい
る。
【0032】処理4-5ではその「"」のペアが表1の定義
1を(<=定義1では?)満たしているかどうかを調べ
る。これは入力テキスト中のその前後の文字を調べるこ
とによって容易に実現できる。
【0033】なお、「"」の場合は発生しないが「'」や
「`」に囲まれた特殊範囲を設定する場合にはここで、
テキストの周囲の状況が、図1のSQ除外リスト4に登
録されているパターンに一致するかどうかを判定する処
理が必要である。
【0034】SQ除外リストは、正規表現などでパター
ンを記述しておき、それと周囲の文字列のマッチングを
とるには、文字列パターンマッチングに関する従来の技
術を用いればよい。
【0035】処理4-5の結果、条件を満たせばそのdq[i]
とdq[j]を特殊範囲 としてans に登録し、stat[]のdq
[i]番目の要素からdq[j]番目の要素までを全て1(「特
殊範囲以内である」)にする。その後、他の「"」のペ
アを捜して処理を続行し、すべての間に「特殊範囲内で
はない位置にある「"」記号」が存在しないような「"」
のペアについて処理してサブルーチンを終了する。以上
のようにして各サブルーチンが実現される。
【0036】図2の処理を全体としてみれば、最初は間
に同種の引用/括弧記号がないような範囲のみが特殊範
囲として登録され、引用や括弧が多重になっている時
は、外側の引用/括弧は内側のものが特殊範囲として設
定された後に特殊範囲として設定されていくことにな
る。このようにして多種類の引用や括弧が同時に出現
し、かつそれらが多重になっていた場合も、最も外側の
範囲まで必ず設定することができる。
【0037】上記のようにして決定された設定範囲のデ
ータはファイル中における位置の形で出力部に送られ
る。出力部では、この数値から設定された各引用部分を
表示する。
【0038】次に、前述の「"Did you say, "What a pi
ty"?", the man said. 」という例を用いて全体の動作
を説明する。
【0039】特殊範囲が1つも設定されていない状態で
設定できる特殊範囲は「"What apity"」という範囲だ
けである。「"Did you say, "」は(表2)の定義1[6]
に、「"?"」は(表2)の定義1[5]に、「"Did you sa
y, "What a pity"」や「"What a pity"?"」や「"Did y
ou say, "What a pity"?"」は(表2)の定義1[4]に、
それぞれ抵触するからである。(なお、最後の3つは定
義に抵触するだけでなく、図4のアルゴリズムを用いた
場合はそもそもdq[i],dq[j]のペアとして選択されな
い)ところが「"What a pity"」という範囲が特殊範囲
として設定された後では、「"Did you say, "What a pi
ty"?"」が(表2)の定義1[4]に抵触しなくなる。
【0040】従って、「"Did you say, "What a pity"
?"」は特殊範囲として設定される。なお、「"Did you s
ay, "What a pity"」や「"What a pity"?"」は今度は
(表2)の定義1[2]に抵触するので切り出されないこ
とになる。(「pity"」の部分は既に他の特殊範囲の終
了位置に、「"What」の部分は既に他の特殊範囲の開始
位置になっている。なお、この2つは定義に抵触するだ
けでなく、図4のアルゴリズムを用いた場合はそもそも
dq[i],dq[j]のペアとして選択されない)。
【0041】以上のようにして「"Did you say, "」、
「"?"」、「"What a pity"?"」といった間違った引用範
囲はは切り出されずに「"What a pity"」という範囲と
「"Did you say, "What a pity"?"」という2つの範囲
が書き手の意図どおりに切り出されるような処理が実現
される。
【0042】また、「"Did you say, 'What a pity'?",
the 'Visitor' said. 」のように2種類以上の引用や
括弧が組み合わされた表現でも、内部のものから決定さ
れていくので、全く問題なく設定できる。
【0043】次に文抽出装置としての動作について述べ
る。図1において、6は文の区切りを設定する文区切り
設定部である。7には(表1)に示す<複合文末文字列
>、<文末文字列>が、文末表現として格納されている
ものとする。本実施例では、特殊範囲設定部によって推
定された特殊範囲の情報は文区切り設定部6に送られ
る。
【0044】図5に文区切り設定部の動作を説明するフ
ローチャートを示す。図5において、「位置」は入力フ
ァイル中の先頭から何文字めかを表す数値であり、初期
値は1(ファイルの先頭)である。まず、その位置が表
1の「文末文字列」の終端になっているかを調べる(図
中5-2)。なっていなければ、区切りとしないて次の位置
へ進む。なっていれば、さらにその位置が特殊範囲内か
どうかを判定し、特殊範囲でなければ処理5-5へ進む。
【0045】特殊範囲であれば、区切りとしないで次の
位置に進むが、英語においては引用や括弧が文の終端に
あるとき「…."」のようにピリオドが引用範囲の内側に
書かれるので、その場合は例外的に処理5-5へ進む(図
中5-4)。5-5では、その位置以降で最初に現われるアル
ファベット文字が大文字か小文字かを調べる。小文字で
あれば文中に出現する「U.S.」などの省略表現などであ
ると考えられるので区切りとしないで次の位置の処理へ
進む。大文字であれば、そこ(文末文字列の終締)を文
同士の区切りとして設定して、次の位置の処理に進む。
【0046】以上のようにしてたとえ複数の文からなる
台詞などを含む文であっても、台詞の途中で分断される
ことなく全体を抽出することができる。
【0047】次に文切り出しの動作を簡単な例文を用い
て説明する。前述の 「"Did yousay, "What a pity"
?", the man said. 」という例を含む、「It was stran
ge."Did you say, "What a pity"?", the man said. Sh
e couldn't answer.」という部分がテキスト中にあった
とする。一般の文切り出し処理では「pity"?"」のとこ
ろの「?」が文の終端を表す記号であるため、ここで文
が区切られ、「"Didyou say, "What a pity"?」や「",
the man said. 」といった「文]が抽出されてしまう。
これに対し、本実施例を用いれば、「"Did you say, "W
hat a pity"?"」という部分が特殊範囲として設定され
るので、「?」が文の終端を表す記号であっても区切り
とされない。(図5の5-4の部分で「唯一」でないため
除外される。)従って、「It was strange.」「"Did yo
u say, "What a pity"?", the man said. 」「 Sh
e couldn't answer.」という3つの文が正しく抽出でき
る。
【0048】また、「He said, "It is very easy. Com
e on!"」 のように引用や台詞が複数の文から構成され
ている場合も、引用中の部分が特殊範囲となるので途中
で分断されずに引用を含む文全体を抽出することができ
る。
【0049】更に、上記のような方法で引用や括弧を設
定すれば、書き手が誤るなどの原因によって開始記号と
終了記号のうち片方しかなかったような場合には範囲が
設定されないため、誤った記号や例外的な記号によって
文の抽出範囲が大きく乱されるのを防ぐことができる、
という効果もある。例えば間違って入力された「"」記
号があってもそれと相呼応する「"」記号が出現しなか
ったならば、それ以降は普通に文が切り出される。「 T
his is a "pen. ...(多数の文からなる長いテキス
ト).... He said, "I want to go there."」といった
形が出現し、penの前の「"」記号が間違って入力された
ものであったとする。従来は引用内で文が区切られるの
を防ごうとすると、「"pen. ...(多数の文からなる長い
テキスト).... He said, "」のような部分が全部つなぎ
合わされてしまうという問題があった。
【0050】これに対し本発明を用いると penの前
の「"」に対応する「"」記号が出現しないため、ここか
ら始まる特殊範囲は 設定されない。「"pen. ...(多数
の文からなる長いテキスト).... He said, "」は(表
2)の定義1[6]に抵触するのである。特殊範囲 "I wan
t to go there."だけが設定されることになる。
【0051】このため、「(多数の文からなる長いテキ
スト)」の部分は普通に文切り出し処理が行われ、誤抽
出を防げる。
【0052】最後にまとまった文章に対する動作を示
す。前述のように従来の方法で一連の文章の区切り位置
を設定した例を図9に示し、そこを区切り位置として切
り出した文を図10に示す。図10では 、文4、文
6、文9、文11のように引用を含む文の一部分だけが
切り出されてしまっている。 同じ例文に対して特殊範
囲設定を行った結果を図6に示す。図6では引用の前後
の空白などを考慮することにより、引用符の範囲が正し
く切り出されている。その結果を用いて文区切りを設定
した様子を図7に示す。図7は、図9と比べると、特殊
範囲の内部の区切りが設定されていない点が異なってい
る。図8は図6の区切り位置を区切りとして、切り出さ
れた文である。図8においては、全ての文が引用の途中
で切り離されることなく抽出されている。
【0053】
【発明の効果】本発明は以上のように、多重の引用、台
詞、括弧が混在していてもそれらを高精度に抽出する手
段を提供する。また、これらの表現を含むドキュメント
を文毎に正確に区切っていく手段をも提供する。しか
も、これらの処理を単語の意味を知るために辞書を引く
といった重い処理を用いずに高速に実現できる。引用部
分や文の切り出しは、文書の編集に、また計算機による
実用的な自然言語処理の前処理として活用することがで
きる。
【図面の簡単な説明】
【図1】本発明の一実施例における文抽出装置の構成を
示す概念図
【図2】本発明の特殊範囲設定部の動作を示すフローチ
ャート
【図3】本発明の一実施例における定義1による特殊範
囲設定の初期化ルーチンを示すフローチャート
【図4】本発明の一実施例における定義1による特殊範
囲設定処理の動作を示すフローチャート
【図5】本発明の一実施例における文区切設定部の動作
を表すフローチャート
【図6】本発明の一実施例による特殊範囲設定結果図
【図7】本発明の一実施例による文抽出処理結果図
【図8】本発明の一実施例による文切り出し結果図
【図9】入力電子化テキストデータ図
【図10】従来技術による図9の処理結果図
【符号の説明】
1 入力部 2 特殊範囲設定部 3 出力部 4 SQ除外リスト 5 設定範囲記憶部 6 文区切設定部 7 特殊範囲定義記憶部 8 文末情報格納部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 高橋 雅則 大阪府門真市大字門真1006番地 松下電器 産業株式会社内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 特殊範囲を再帰的に定義した特殊範囲定
    義記憶部と、前記特殊範囲定義記憶部に記憶された定義
    に基づき電子化テキストデータ中に特殊範囲を設定する
    特殊範囲設定部と、前記特殊範囲設定部により設定され
    た特殊範囲を記憶する特殊範囲記憶部とを備え、前記特
    殊範囲設定部が前記特殊範囲定義記憶部に記憶された定
    義に基づき前記特殊範囲記憶部に記憶された特殊範囲を
    参照し特殊範囲を再帰的に設定することを特徴とする特
    殊範囲抽出装置。
  2. 【請求項2】 請求項1記載の特殊範囲抽出装置と、文
    の終端を表しうる文字または文字列を格納した文末情報
    格納部と、前記特殊範囲抽出装置により抽出された特殊
    範囲と前記文末情報格納部に格納された情報に基づき電
    子化テキストデータ中に文の区切を設定する文区切設定
    部を備えた文抽出装置。
JP00826094A 1994-01-28 1994-01-28 特殊範囲抽出装置および文抽出装置 Expired - Fee Related JP3616126B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00826094A JP3616126B2 (ja) 1994-01-28 1994-01-28 特殊範囲抽出装置および文抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00826094A JP3616126B2 (ja) 1994-01-28 1994-01-28 特殊範囲抽出装置および文抽出装置

Publications (2)

Publication Number Publication Date
JPH07219951A true JPH07219951A (ja) 1995-08-18
JP3616126B2 JP3616126B2 (ja) 2005-02-02

Family

ID=11688185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00826094A Expired - Fee Related JP3616126B2 (ja) 1994-01-28 1994-01-28 特殊範囲抽出装置および文抽出装置

Country Status (1)

Country Link
JP (1) JP3616126B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2009008115A1 (ja) * 2007-07-09 2010-09-02 三菱電機株式会社 音声認識装置およびナビゲーションシステム
WO2011135770A1 (ja) * 2010-04-28 2011-11-03 パナソニック株式会社 電子書籍装置、電子書籍再生方法、及び電子書籍再生プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2009008115A1 (ja) * 2007-07-09 2010-09-02 三菱電機株式会社 音声認識装置およびナビゲーションシステム
WO2011135770A1 (ja) * 2010-04-28 2011-11-03 パナソニック株式会社 電子書籍装置、電子書籍再生方法、及び電子書籍再生プログラム
JP2011233047A (ja) * 2010-04-28 2011-11-17 Panasonic Corp 電子書籍装置、電子書籍再生方法、及び電子書籍再生プログラム

Also Published As

Publication number Publication date
JP3616126B2 (ja) 2005-02-02

Similar Documents

Publication Publication Date Title
US5610812A (en) Contextual tagger utilizing deterministic finite state transducer
US6173251B1 (en) Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
Grefenstette Tokenization
JPH0823864B2 (ja) 見出し判定方法
JPH02299068A (ja) 入力文字列からワードを分離する方法
JPH1069483A (ja) スペル訂正システム
JP2002517039A (ja) 中国語テキストにおける単語分割
Theeramunkong et al. Non-dictionary-based Thai word segmentation using decision trees
EP1471440A2 (en) System and method for word analysis
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
Kadim et al. Parallel HMM-based approach for arabic part of speech tagging.
CN110134766B (zh) 一种面向中医古籍文献的分词方法和装置
JP3744676B2 (ja) 情報抽出装置及びその方法
JP3616126B2 (ja) 特殊範囲抽出装置および文抽出装置
Doush et al. Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction
KR102109858B1 (ko) 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법
Belaid et al. Part-of-speech tagging for table of contents recognition
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
KR100434526B1 (ko) 문맥정보및지역적문서형태를이용한문장추출방법
JPS6239793B2 (ja)
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JPH0877196A (ja) 文書情報抽出装置
JPH0748217B2 (ja) 文書要約装置
JPS61190653A (ja) 文書処理装置
JPH0773188A (ja) 情報抽出方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041104

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071112

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees