JPH0283594A - 形態素合成形英単語辞書構成方式 - Google Patents

形態素合成形英単語辞書構成方式

Info

Publication number
JPH0283594A
JPH0283594A JP63237201A JP23720188A JPH0283594A JP H0283594 A JPH0283594 A JP H0283594A JP 63237201 A JP63237201 A JP 63237201A JP 23720188 A JP23720188 A JP 23720188A JP H0283594 A JPH0283594 A JP H0283594A
Authority
JP
Japan
Prior art keywords
english word
morpheme
english
morphemes
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63237201A
Other languages
English (en)
Inventor
Jun Kametani
亀谷 潤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63237201A priority Critical patent/JPH0283594A/ja
Publication of JPH0283594A publication Critical patent/JPH0283594A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は不特定話者用の大語零連続音声認識装置に関し
、特にその英単語認識部に用いられる単語辞書の構成方
式に関する。
(従来の技術) 従来、この種の音声認識装置に用いられる英単語辞書は
、第2図に示すような構成となっている。
第2図において、9は認識装置のタスクに依存し虎数の
英単語を記述しておくための英単語データベース、10
は規則変化動詞や名詞などの規則的な語尾変化を取る品
詞の変化規則を記述しておくための語尾変化ルールベー
ス、11はルールベース10と照合しながら単語認識に
おけるマツチングテンプレート用に英単語基本形を語尾
変化させるための英単語派生部、14は英単語派生部1
1で得らhた結果を出力するための英単語認識部である
単語登録形英単語辞書12は英単語データベース9と、
語尾変化ルールベース10と、英単語派生部11とを備
えて構成したものである。
(発明が解決しようとする課題) 上述した従来の英単語認識用の英単語辞書では、認識装
置のタスクに依存して、必要となる英単語の数だけ第2
図の英単語データベースに単語データを登録しておく必
要がある。通常、単語データは装置の認識方法によりア
ルファベット系列、または音素記号系列の組合わせで表
現される。いずれの場合においても、認識対象の語雲数
が増加すれはデータベースの記憶容量もそれに伴って増
加するため、タスクに英語と日本語との間の自動通訳と
仮定した場合、データベースの大きさはかなりのものに
なるという欠点がある。
英語の常用単語の数は、九かだか数千語程度ではあるが
、ビジネス英語などのタスクでは登録する英単語の数は
さらに増加し、不規則変化動詞の変化形も登録せざるを
得ない。このため、英単語データベースの規模は必然的
〈大きくなる。このように1従来の大語党連続音声認識
装置の英単語辞書構成方式では大語霊化を図るのに伴っ
て英単語データベースの大きさが線形的に増加するため
メモリの大容量化、ならびに辞書検索時間の増加による
認識応答時間の遅延などの欠点がある。
本発明の目的は、英単語と合成する際の要素となる形態
素を登録しておくとともに、形態素同志をそのまま、あ
るいは音韻的な変形を加えて結合するなめの形態素合成
規則を登録しておき、形態素合成規則にもとづいて形櫂
書を直接または音韻的変形を加えて結合し、英単語を合
成してその結果を単語認識部に出力することによって上
記欠点を除去し、データベースの大きさを小規模にする
ことができるように構成した形態素合成形英単語辞書構
成方式を提供することにある。
(課題を解決するための手段) 本発明圧よる形態素合成形英単語辞書構成方式は、英単
語形態素データベース手段と、形轢素変形合成ルールベ
ース手段と、英単語合成手段とを具備して構成したもの
である。
英単語形態素データベース手段は、英単語の核となる形
態素を登録するためのものである。
形態素変形合成ルールベース手段は、形態素同志を結合
するための合成規則を登録するためのものである。
英単語合成手段は、合成規則てもとづいて形態素同志を
直接的、あるいは変形して結合し出力する虎めのもので
ある。
(実施例) 次に、発明明番でついて図面を参照して説明する。
第1図は、本発明による形轢素合成形英単語辞書構成方
式の一実施例を示すブロック図である。
第1図において、1は英単語形態素データベース、2は
形態素変形合成ルールベース、3は英単語合成部、4は
英単語認識用、5は形態素合成形英単語辞書である。
また、6はホストコンピュータ(図示していない。)を
接続する端子、フは下位レベル認識ユニット(図示して
いない。)を接続する端子、8は上位レベル認識ユニッ
ト(図示していない。)を接続する端子である゛。
英単語形態素データベース1は、装置のタスクに応じて
必要な種類の英単語を形成する核となる形態素を登録し
ておくためのデータベースである。
形態書変形合成ルールベース2は、形態素の前後の接続
環境にもとづく、つづりの変化の規則、および形態素群
同志の結合順序規則などを予め登録しておくためのルー
ルベースである。英単語合成部3は、形態素変形合成ル
ールベース2に記述しである規則にもとづいて、形態素
を音韻的に変形。
またはそのままの形で結合して英単語を合成し、装置の
英単語昭識部4に英単語認識用のマツチングテンプレー
トとして出力するなめのものである。
以下に、本実施例の動作を簡単に説明する。
まず、不特定話者の連続発声大語霊の英語文章文を、日
本語の文章文に自動的に翻訳する問題を考える。連続発
声の大語貧文章文の認識では、通常音声信号を音素単位
、あるいは音節単位で認識した後、単語、句、文などの
上位レベルの認識を行なう。ここで、連続英語音声を唾
ず音素単位で認識し、得られた音素系列に単語間のポー
ズ情報を使ってセグメンテーションを行ない、単語単位
に分けられた音素系列を音韻規則によってアルファベッ
ト記述の単語候補に変換する。
アルファベット記述の単語候補に対するマツチングテン
プレートとして参照される英単語辞書に、本発明の形態
素合成形英単語辞書5を使用する場合、英単語合成の動
作は次のようになる。
英単語昭識部4に入力されたアルファベット記述単語候
補に対し、英単語合成部3はまずマツチングの取れる形
態素を英単語形態素データベース1のなかから検索する
。マツチングの増れた形態素に対し、英単語合成部3は
形態素変形合成ルールベース21C記述された規則を参
照し、その形態素の前後に接続可能な形態素を英単語形
態素データベース1から選出する。
選出され虎形態素は、形態素変形合成ルールベース2に
記述されたつづり変化規則にもとづき、必要ならばつづ
りを変化させ、英単語合成部3においてマツチングの取
れた形態素の前後に接続される。接続された形態素系列
は、英単語のマツチングテンプレートとして英単語認識
部4に出力される。このユニットにおいては、アルファ
ベット記述単語候補の全体とマツチングテストを行なう
マツチングテストの結果、完全に単語候補と整合が取れ
な場合、単語候補は正しくアクセプトされたとみなされ
、英単語合成部3からマツチングテンプレートの形態素
番号系列が英単語認識部4に渡され、英単語認識の結果
として上位レベル認識ユニット8に送られる。
テストの結果、単語候補と完全に整合が取れなかった場
合、英単語合成部3に対してU )ライ信号が送られ、
再度、接続可能な形態素の選出を行ない、異なる英単語
マツチングチンプレートラ合成して英単語認識部4に出
力する。
以上のIJ)ライ動作を繰返しても完全整合が取れず%
″!九接続可能な形態素の組合せがなくなった場合は、
下位レベル認識ユニット7での認識誤りとして単語認識
部4はホストコンピュータ6に報告し、認識動作を停止
する。
第8図において形態素同志を結合して、英単語を合成す
る場合の具体例を示す。まず、第8図(a)においては
、核となる形態素%nati01 lを中心とする派生
的な英単語が合成される様子を示す。すなわち、形態素
%nation ’に形容詞化接尾辞である形態素%a
llf接続すると、1n&−tlonal ’が合成さ
れ、%national  ’に接頭辞である形態素%
1nter  ’を接続すると、%1nternati
onal  ’が合成され、%1nter−natio
nal’に動詞化接尾辞である形態素’ize’を接続
すると%1nternationalize  ’が合
成され%′量nternatlonalfze ’の’
lze’を%iz  lに変形し各勧化接尾辞である形
態素%at−ion’を接続すると% 1nterna
tiona11zati−on  ’が合成されること
を表わしている。
第3図は本発明の基本的な特徴を表わしており、この形
態素合成形の英単語辞書では個々の単語を登登録する必
要がない。
第8図(b’)においては、第3図(a)の例とは異な
り、°一つの形態素に継続的に形態素が接続されるので
はなく、一つの形態素を核として並列的に形態素を接続
し、異なる英単語が合成できる様子を示している。すな
わち、’viv’という形態素を中心廻して%5urv
lve ” revive ’’ 5urvival 
” revival ’ 、t vivld ’などの
英単語が合成されることを表わしている。
第8図(c)K:bいては、形態素が前後に接続される
形態素の音韻的環境により、つづり字の変化を起こす例
を示す。ここでは、接頭辞である形態素%ln lが後
に接続される形態素のつづり字により、つづりに変化を
起こす例を挙げる。
すなわち、後K”% 1 #が来れば1111に変化し
、後Vc1bl 1plがくれば%1m’に変化し、後
に%rlがくれば%1rIに変化し、その他のつづり字
であれば%lnlに変化することを表わしている。
このような規則的なつづり変化をルールベースに記述し
ておけば、データベースに登録する必要のちる形態素の
数が減少し、英単語辞書の大きさがより小さくなる。
(発明の効央) 以上説明したように本発明は、英単語そのものの代わり
に形態素を登録し、形態素のつづり変化規則に形態素の
接続規則を参照して形態素から英単語を自動的だ合成し
て英単語認識用のマツチングテンプレートとして使用す
ることによゆ、英単語そのものを登録する場合に比べて
、登録するデータの数が著しく減少するため、データベ
ースの大きさを小さくすることができるという効果があ
る。
まな、データベースの大きさが小さくなるとデ−夕検索
のなめの時間が減少するため、認識に要する時間が短か
くなり、応答時間が速くなるという効果がある。
さらに、英単語は通常、一つ以上の形態素から構成され
るため、認識語型を追加する場合にも、英単語そのもの
を登録する場合に比べて追加する形態素の数は少なくて
済むきいう効果がある。この効果は、新語などの合成語
に対しては特に著しい。
【図面の簡単な説明】
第1図は、本発明による形態素合成形英単語辞q7I構
成方式の一実施例を示すブロック図である。 第2図(a)〜(c)は、それぞれ本発明による形態素
の接続の実例を示す説明図である。 第8図は、従来技術による形態岩倉成形英単語辞書構成
方式の一例を示すブロック図である。 1・−Φ英単語形態素データベース 2倫・会形態素変形合成ルールペース 3・・−英単語合成部 4拳−・英単@認識部 6〜8 10 ・ 11 ・ 12 # 形態老台成形英単語辞書 ・・端 子 英単語データベース 一語尾変化ルールベース 、英単語派生部 砂単語登録形英単語辞書

Claims (1)

    【特許請求の範囲】
  1. 英単語の核となる形態素を登録するための英単語形態素
    データベース手段と、前記形態素同志を結合するための
    合成規則を登録するための形態素変形合成ルールベース
    手段と、前記合成規則にもとづいて前記形態同志を直接
    的、または変形して結合し出力するための英単語合成手
    段とを具備して構成したことを特徴とする形態素合成形
    英単語辞書構成方式。
JP63237201A 1988-09-20 1988-09-20 形態素合成形英単語辞書構成方式 Pending JPH0283594A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63237201A JPH0283594A (ja) 1988-09-20 1988-09-20 形態素合成形英単語辞書構成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63237201A JPH0283594A (ja) 1988-09-20 1988-09-20 形態素合成形英単語辞書構成方式

Publications (1)

Publication Number Publication Date
JPH0283594A true JPH0283594A (ja) 1990-03-23

Family

ID=17011875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63237201A Pending JPH0283594A (ja) 1988-09-20 1988-09-20 形態素合成形英単語辞書構成方式

Country Status (1)

Country Link
JP (1) JPH0283594A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258439A (ja) * 2004-03-10 2005-09-22 Microsoft Corp 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成
WO2020240647A1 (ja) * 2019-05-27 2020-12-03 三菱電機株式会社 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258439A (ja) * 2004-03-10 2005-09-22 Microsoft Corp 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成
WO2020240647A1 (ja) * 2019-05-27 2020-12-03 三菱電機株式会社 音声認識辞書作成装置、音声認識装置、音声認識辞書作成方法

Similar Documents

Publication Publication Date Title
CN112352275B (zh) 具有多级别文本信息的神经文本到语音合成
Oostdijk et al. Experiences from the spoken Dutch corpus project
US8942983B2 (en) Method of speech synthesis
WO2020062680A1 (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
CN107515850A (zh) 确定多音字发音的方法、装置和系统
TW201822190A (zh) 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
CN110211562B (zh) 一种语音合成的方法、电子设备及可读存储介质
CN116110370A (zh) 基于人机语音交互的语音合成系统及相关设备
JPH0283594A (ja) 形態素合成形英単語辞書構成方式
JP3950957B2 (ja) 言語処理装置および方法
JPH03132797A (ja) 音声認識装置
CN114464173A (zh) 一种声学模型训练方法、装置、电子设备和存储介质
CN112667798A (zh) 一种基于ai的呼叫中心语言处理方法及系统
JP3039453B2 (ja) 音声認識装置
JPS6219899A (ja) 文章音声認識装置
CN114327090B (zh) 日文输入方法以及相关装置、设备
CN113345408B (zh) 中英文语音混合合成方法、装置、电子设备和存储介质
JPH0210957B2 (ja)
JPS6083136A (ja) プログラム読上装置
JPS62119591A (ja) 文章読上げ装置
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
Alsulaiman et al. Development and Analysis of a Versatile Dataset of Speech, Real and Synthesized, of Arabic Learners
KR100306205B1 (ko) 발음 접속 그래프를 이용한 tts 처리 방법 및 연속 음성 인식 방법
Rabiner Speech recognition based on pattern recognition approaches
JP2683976B2 (ja) 音声認識用確率モデル