JPH1152973A

JPH1152973A - 文書読み上げ方式

Info

Publication number: JPH1152973A
Application number: JP9213566A
Authority: JP
Inventors: Tetsuya Sakayori; 哲也酒寄
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1997-08-07
Filing date: 1997-08-07
Publication date: 1999-02-26

Abstract

(57)【要約】【課題】電子化文書を読み上げる際の文書の聴解性を
向上させるとともに、文書読み上げ位置へのランダムア
クセスを可能にする。【解決手段】電子化文書の表題，段落などの論理的特
徴及び／又は文字の大きなどの視覚的特徴が分かるよう
に、前記文書の特定の情報及び／又は論理的構造によっ
て前記文書の内容を階層化して内部データに変換し、そ
の内部データに基づき読み上げ処理する。また、前記文
書の内容を階層化した内部データを利用してユーザの指
示に応じて文書の読み上げブロックに自由にアクセスで
きる文書読み上げシステムを提供する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＳＧＭＬ，ＨＴＭ
Ｌ，などの電子構造化文書を、音声合成技術等により音
声化するシステムに関し、例えば、電話でデータべース
にアクセスしたり、視覚障害者がＷＷＷ（World wide W
eb)にアクセスする際などに利用される。

【０００２】

【従来の技術】従来、視覚表示を前提としたテキスト
（文書)の読み取り方式として次のようなものがある。（１）テキストを音声化する際に文字装飾を音で表現し
たり、文書中の読み上げ位置を音像定位で表現するもの
（従来技術１という，例えば、特開平８−２６３２６０
号公報「テキスト読み上げ方法」）。（２）読み上げ位置を戻す際に文節単位毎に逆方向に、
かつ、文節単位内では順方向に高速に読み上げ、利用者
はこれを聞いていて聞き返したい位置を探すもの（従来
技術２という，例えば、特開平６−３０８９９８号公報
「音声読み上げ装置」）。（３）階層構造に分類された文書情報を読み上げる際、
スイッチ押下時間や回数によって読み上げ位置を指定す
るもの（従来技術３という，例えば、特開平５−２８１
９８７，２８１９８８，２８１９９２号公報「可搬性文
書読み上げ装置」）。（４）ＨＴＭＬ文書を合成音声で読み上げるもの（従来
技術４という，ソフトウェア製品化されている。例え
ば、（株）リコー製「おしゃべりさーふあー」）。

【０００３】

【発明が解決しようとする課題】しかしなから、これら
従来の文書読み上げ技術は以下で述べるようにそれぞれ
聴解性及び読み上げ文書へのランダムアクセスの点で未
だ十分とはいえない。この点を図面を参考にして説明す
ると、例えば、図１に示すＨＴＭＬ文書は、通常ブラウ
ザと呼ばれるソフトによって図２に示すように視覚的に
表示される。図２から明らかなように、タグ情報は視覚
的書式情報に変換されて文書における階層構造を明らか
にしているからその視認性は向上している。ところがこ
れを前記従来技術４によって音声化すると、前記従来技
術４では図３に示すようにタグを無視して日本語部分を
読み上げてしまうので、ユーザにとってはだらだらと分
かり難いものになってしまう。これに対し、前記従来技
術１では音声化する際に文字修飾，文書中の読み上げ位
置を表現するものであるため、ある程度視覚的特徴を音
で表現できるが、文書の論理構造まで把握することは難
しく、全体像の把握も音像定位という曖昧な形にとどま
っている。

【０００４】また、文書読み上げ方式において、音声メ
ディアは一覧性に欠けるためランダムアクセスが難しい
という問題があり、従来技術３では階層的ファイル構造
を採用することでボタン操作によるランダムアクセスを
実現している。しかしながら、従来技術３では専用の構
造でデータを記述するため既存のテキストを対象とする
ことはできない。他方、従来技術２ではテキスト中を高
速に移動することによりアクセス速度を得ているが、文
書を聞き返す場合に前記文書の各文節の並びを逆の順番
で聞き取りながら、文書の読み上げ位置を判断すること
はユーザにとって負荷が軽いとは言い難い。

【０００５】したがって、請求項１の発明の課題は、主
に視覚用に作成された文書の階層構造をそのまま保存し
て音声化することにより、聴解性を向上させることであ
る。請求項２の発明の課題は、請求項１の発明の課題に
加え、既存の構造化された電子テキストにもそのまま適
用できるようにすることである。請求項３の発明の課題
は、請求項１の発明の課題に加え、構造化タグのない電
子テキストにも適用できることである。請求項４の発明
の課題は、請求項１の発明の聴解性を更に向上させるこ
とである。請求項５の発明の課題は、請求項１の発明の
課題に加え、聴いている箇所の全体の中での位置付けを
把握し易くすることである。

【０００６】請求項６の発明の課題は、請求項１の発明
の課題に加え、読み取り文書へのランダムアクセスを迅
速に行うようにすることである。

【０００７】

【課題を解決するための手段】本発明は、主に視覚提示
用に書かれた既存の構造化された電子テキスト（文書）
を、作者の意図した文章の構造情報を含めて音声化する
ことで、視覚表示に近い分かり易さ及びアクセスビリテ
ィの向上を目指すものである。

【０００８】請求項１の発明は、電子化文書の文字情報
を音声合成技術によって音声化して出力する文書読み上
げ方式において、前記文書の書式情報及び／又は論理的
構造から当該文書の内容を階層的に捉え、これに従って
出力順序及び／又は音声属性などを変更して音声化する
文書読み上げ方式である。

【０００９】請求項２の発明は、請求項１の発明におい
て、前記書式情報をその種類毎に異なる強さを持つ文書
中の区切りとして扱い、これによって文書を階層的にブ
ロック化する文書読み上げ方式である。

【００１０】請求項３の発明は、請求項１の発明におい
て、文書中の第１段落及び段落中の第１文のような、前
記ブロックの最初の文章単位をそれ以降の文章単位の上
位の階層に位置付けることによって、前記文書の内容を
階層的にブロック化する文書読み上げ方式である。

【００１１】請求項４の発明は、請求項１の発明におい
て、前記文書の内容を上位の階層から下位の階層へ順に
読み上げる文書読み上げ方式である。

【００１２】請求項５の発明は、請求項１の発明におい
て、タイトルと内容及び階層間の識別を音声属性，付加
音などを用いて行う文書読み上げ方式である。

【００１３】請求項６の発明は、請求項１の発明におい
て、読みだし手段がユーザの要求に応じて前記文書の上
下階層間及び同一階層間で移動自在である文書読み上げ
方式である。

【００１４】

【発明の実施の形態】本発明の実施態様を、図１に示す
ＨＴＭＬ文書を例に取って説明する。図４は、このＨＴ
ＭＬ文書から文書の構造情報を抽出して、それを階層的
内部データに変換した場合の該内部データを示したもの
である。図５は、その変換の際の処理フローを示したも
のである。以下では、まず、ソーステキストから内部デ
ータへの変換処理について述べ、続いて内部データの読
み上げ処理について述べることとする。

【００１５】ソーステキストの階層化は主にタグに基づ
いて行われる。このためにタグは例えば予め図６のよう
に、最上層の仮想的最上層タグから最下層の強制改行の
〈ＢＲ〉まで階層が順位付けられている。この順位はタ
グが表わす階層の高さであり、これは論理的意味と視覚
的特徴から文書の区切りとしての強さを判断して決めら
れる。論理的意味とは表題，段落など、主に論理タグが
表わす文章の意味的な構造である。視覚的特徴とは文字
の大きさや罫線など視覚的に感じる構造情報である。以
下のブロック化では、これらの特徴をタグの持つ区切り
の強さと考えて文書を階層的に分割する。なお、この実
施態様及び以下の説明では主に開始タグをブロック区切
りとして用い、終了タグはブロック区切りとしては使用
していないが、本発明はこれに限定されるものではな
く、当然開始タグと終了タグで囲まれる範囲をブロック
として扱うことも考えられる。

【００１６】以下では、図５を参考に、図１に示すソー
ステキストを図４に示す階層的データに変換する場合を
例にとり、図５のブロック分割処理を再帰的に行うこと
について説明する。まず、図１のソーステキスト全体を
処理対象テキストとして、仮想的な最上層タグを現階層
タグとするルートブロックのブロック化（Ｓ１０１〜Ｓ
１１１）を行う。タイトルと内容の抽出処理（Ｓ１０
２）は現階層タグの種類によって異なるが、仮想的最上
層タグについては行わない。次に子ブロックＣＨＩＬＤ
のブロック化の準備として、処理対象テキストに含まれ
る現階層よりも下層で最も近いタグを探す（Ｓ１０３〜
Ｓ１０５）。ここでは第１表題タグ〈Ｈ１〉が発見され
る。そこで、タグ〈Ｈ１〉を対象に子ブロックをブロッ
ク化する。すなわち図１のソーステキスト全体を処理対
象テキストとして、タグ〈Ｈ１〉を現階層タグとしてブ
ロック化処理の再帰呼び出しを行う（Ｓ１０１）。

【００１７】タグ〈Ｈ１〉についてはタグ〈Ｈ１〉とタ
グ〈／Ｈ１〉に挾まれる部分をタイトルとして、それに
続く第１段落を内容として抽出する（Ｓ１０２）。その
結果「音声WebブラウザTelMePage」がタイトルとして抽
出され、内容は抽出されない。次に子ブロックＣＨＩＬ
Ｄのタグを〈Ｈ１〉より下層の候補タグから探し、第２
表題タグ〈Ｈ２〉が２つ発見される（Ｓ１０３〜Ｓ１０
５）。そこでまず最初のタグ〈Ｈ２〉と次のタグ〈Ｈ
２〉の間の部分を処理対象テキストとして、タグ〈Ｈ
２〉を現階層タグとしてブロック化処理の再帰呼び出し
を行い（Ｓ１０１〜Ｓ１０７）、これを子ブロックとす
る。さらに次のタグ〈Ｈ２〉から最後までも同様に処理
する（Ｓ１０１〜Ｓ１０７）。

【００１８】このようにして再帰的に階層ブロック化を
行う（Ｓ１０１〜Ｓ１１１）が、タイトルと内容を抽出
する部分以外はこの処理の繰り返しとなるので、タイト
ル・内容抽出処理のみ以下に説明する。タグ〈Ｈ２〉で
はタグ〈Ｈ１〉と同様にタイトル・内容抽出処理を行
い、それに続くタグ〈Ｐ〉はタイトル無しの子ブロック
とする。これは通常第１段落でそれ以降の概要などを述
べることが多いことによるものである。タグ〈ＵＬ〉は
ここでは無視し、タグ〈Ｌ１〉部分をタイトル無しのブ
ロックとみなして処理する。このようにソーステキスト
から内部データへの変換が行われる。

【００１９】次に、変換された内部データの読み上げ処
理の一実施態様を図７を参考にして説明する。ユーザか
ら何ら操作のない場合は、タイトル，内容，子ブロック
のタイトルの順に読み上げ（Ｓ２０１〜Ｓ２１０）、そ
の子ブロックに移って同様に（タイトル，内容，子ブロ
ックのタイトルの順に）読み上げる（Ｓ２１２〜Ｓ２１
４）。この時タイトル，内容，子ブロックのタイトルそ
れぞれの前に異なる効果音を付加するか、及び／又は声
種を変えることにより識別を助けるようになっている。
これを繰り返し最下層ブロックまで読み上げ（Ｓ２０１
〜Ｓ２１５）、その後未読ブロックに戻って読み上げを
続ける（Ｓ２０２〜Ｓ２１５）。これによってこのテキ
ストが全体としては背景と特徴からなることが読み上げ
の冒頭で分かり聴解性が向上する。

【００２０】さらに読み上げ途中でユーザからの割り込
みによるロケーション指定を受け付けることができ、こ
れによりランダムアクセスが可能となる。即ち、「もう
一度」を指示することで（Ｓ３０１）現在読み上げてい
るブロックの先頭へ返って聴き返すことができる（Ｓ２
０３〜Ｓ２１４）。また、例えばタグ〈Ｈ１〉ブロック
の子ブロックタイトル「特徴」を読み上げている時に、
「下層へ」を指示すると（Ｓ３０２）、読み上げロケー
ションを直接「特徴」の中身へ飛ばす（Ｓ２１２）こと
が出来る。タグ〈Ｈ２〉「特徴」の内容の読み上げ中に
「次へ」を指示すると（Ｓ３０３）、親ブロックの次の
子ブロック、すなわちタグ〈Ｈ２〉ブロック「背景」へ
飛ぶことが出来る。箇条書き部分の（Ｕ）ブロックにつ
いても同様に読み上げ中に次の項目に飛ぶことができ
る。「上層へ」を指示すると（Ｓ３０４）親ブロックの
先頭へ戻って読み上げることができる。

【００２１】以上の読み上げ動作は図７の流れ図で示さ
れる処理（Ｓ２０１〜２１５）を再帰的に用いて実現す
ることができる。図中、ｂｌｏｃｋＴＩＴＬＥはブロッ
クｂｌｏｃｋのタイトル、ｂｌｏｃｋＣＯＮＴＥＮＴは
ブロックｂｌｏｃｋの内容、ｂｌｏｃｋＮＣＨＩＬＤは
ブロックｂｌｏｃｋの子ブロックの数、ｂｌｏｃｋＣＨ
ＩＬＤ[ｉ]はブロックｂｌｏｃｋのｉ番目の子ブロック
をそれぞれ表している。なお、テキストの音声化処理に
ついては既存のテキスト音声合成技術が使えるのでここ
では説明を省略する。

【００２２】

【発明の効果】請求項１に対応する効果：文書の情報を、その階層構造
を保存したまま話し言葉としての表現に写像して出力す
ることができるため、聴解性を向上することができる。請求項２に対応する効果：請求項１に対応する効果に加
えて、既存の構造化された電子テキストにもそのまま適
用することができる。請求項３に対応する効果：請求項１に対応する効果に加
えて、既存の構造化タグのない電子テキストにも適用す
ることができる。請求項４に対応する効果：請求項１に対応する効果に加
えて、下位概念を聴解するための前提知識である上位概
念を常に事前に取得することになるため全体的に聴解性
が向上する。請求項５に対応する効果：請求項１に対応する効果に加
えて、現在聞いている個所の文書全体の中での位置づけ
が把握しやすく、聴解性が向上する。請求項６に対応する効果：請求項１に対応する効果に加
えて、音声メディアの欠点であるランダムアクセスの難
しさを補い、ユーザ要求に対する反応速度を向上するこ
とができる。

【図面の簡単な説明】

【図１】読み上げ文書の例を示す図である。

【図２】前記文書のブラウザによる表示例を示す図で
ある。

【図３】前記文書を従来の方式で音声化した場合の読
み上げ表示例を示す図である。

【図４】前記文書の階層的内部データを示す図であ
る。

【図５】前記文書の構造を階層的内部データに変換す
る処理フローを示す図である。

【図６】前記文書に付与されるタブの一例を示す図で
ある。

【図７】階層的内部データによる文書読み上げ処理フ
ローを示す図である。

Claims

【特許請求の範囲】

【請求項１】電子化文書の文字情報を音声合成技術に
よって音声化して出力する文書読み上げ方式において、
前記文書の書式情報及び／又は論理的構造から当該文書
の内容を階層的に捉え、これにしたがって出力文の順序
及び／又は音声属性などを変更して音声化することを特
徴とする文書読み上げ方式。
【請求項２】前記書式情報をその種類毎に異なる強さ
を持つ文書中の区切りとして扱い、これによって文書を
階層的にブロック化することを特徴とする請求項１に記
載された文書読み上げ方式。
【請求項３】文書中の第１段落及び段落中の第１文の
ような、前記ブロックの最初の文章単位をそれ以降の文
章単位の上位の階層に位置付けることによって、前記文
書の内容を階層的にブロック化することを特徴とする請
求項１に記載された文書読み上げ方式。
【請求項４】前記文書の内容を上位の階層から下位の
階層へ順に読み上げることを特徴とする請求項１に記載
された文書読み上げ方式。
【請求項５】タイトルと内容及び階層間の識別を音声
属性，付加音などを用いて行うことを特徴とする請求項
１に記載された文書読み上げ方式。
【請求項６】読み出し手段がユーザの要求に応じて前
記文書の上下階層間及び同一階層間で移動自在であるこ
とを特徴とする請求項１記載の文書読み上げ方式。