CN100524295C

CN100524295C - 一种与访问互联网内容有关的装置及方法

Info

Publication number: CN100524295C
Application number: CNB03815885XA
Authority: CN
Inventors: S·乔治斯库
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2002-07-02
Filing date: 2003-01-16
Publication date: 2009-08-05
Anticipated expiration: 2023-01-16
Also published as: GB2405717B; US20050251393A1; CN1666199A; GB2405717A; AU2003201809A1; JP2005530279A; JP3936718B2; WO2004006131A1; SE0202058D0; GB0425411D0

Abstract

本发明涉及一种允许多模式访问诸如互联网之类的全球数据通信网络上内容的装置(及方法)，包括带有用户代理的移动站(1)、代理服务器(2)以及电话平台(3)。移动站(1)是同时支持语音及数据会话的双模站，代理服务器(2)包括支持语音浏览的增强功能，电话平台(3)包括自动语音识别器(ASR)(31)以及将文本消息转换成语音的模块。所述的增强型代理服务器(2)与电话平台(3)的自动语音识别器(31)接口，而且在(原有)网页内容中预定义并标明了关键元素(例如，文本、短语)。当增强型代理服务器(2)识别/提取出所述关键元素(使用预定的规则)时，触发话音浏览，这样任意的网页内容(页面)都可以通过话音命令而不需要转换网页内容而访问。

Description

一种与访问互联网内容有关的装置及方法

技术领域

本发明涉及一种允许多模式访问诸如互联网上的互联网内容之类的装置，包括带有用户代理的移动站、代理服务器以及电话平台。发明也涉及一种允许多模式访问诸如互联网内容之类的方法。

现有技术

多模式浏览是访问诸如互联网之类的全球数据通信网上内容的一种用户友好的方法。使用多模式浏览器访问内容就是说用户应该能够使用任何所支持的输入方法或者它们的组合。迄今已知的输入方法是键盘方法、鼠标点击方法以及语音命令方法，当然还有可以实现的其它输入方法。但是，到目前为止没有一种已知的结构能够将语音浏览功能加入在语音和数据双模移动站中运行的普通用户代理中。相反，现有的语音浏览系统是基于VoiceXML可扩展标记语言的，它是能够定义语音对话的语言。在这种VoiceXML系统中，需要两个浏览器而且语音浏览应用程序(语音浏览器)与基于键盘的浏览应用程序独立无关地运行。两种不同的浏览器之间不能同步。除此之外，只有当内容是为常规HTML/XHTML格式以及VoiceXML共同设计时才能实现多模式浏览。因此为两种不同格式设计内容是必须的。

因此目前的语音浏览是基于VoiceXML实现的，这是一种为通过电话访问互联网应用程序而定义语音对话的语言。输出的语音对话实际上通过声音和文本-到-语音提示而实现的，而输入对话通过按键(DTMF)和自动语音识别来实现。一种已知而且典型的结构由容纳VoiceXMAL内容的应用服务器、包含语音浏览器(VoiceXMAL客户机)和语音/电话平台的VoiceXML网关组成。用户系统交互通过语音菜单执行，用户可以通过语音从该菜单指定他的选项。所有与语音识别、文本-到-语音转换、以及DTMF(双音多频)识别有关的功能在语音/电话平台上实现，将VoiceXMAL页面中规定的对话转换成语音或从语音转换过来。语音浏览器根据实时翻译的内容，控制语音对话序列。应该指出的是，在用户交互过程中，只使用移动站的语音部分。利用这样的系统，只能当HTML/XHTML以及Voice/XML格式都在应用服务器上提供时，才能多模式地访问互联网应用程序。移动站还必须是双模语音和数据站，才能同时建立语音和数据会话。

但是使用这种已知结构的基于语音的应用程序存在一个问题，语音对话通常必须用VoiceXML定义。因此只有专门为基于语音交互而设计的应用程序/内容才能通过电话访问。因此大多数HTML/XHTML内容则不可能通过语音访问，除非先转换成VoiceXML。

现有系统或结构的另一个问题是，为了实现多模浏览，当基于语音的访问与正常浏览结合时，没有将两种浏览器同步的机制，例如运行在移动站数据部分中的HTML/XHTML浏览器和运行在VoiceXML网关中的语音浏览器。因此在一个而且同一个浏览会话中，从一种输入方法切换到另一种是不可能的，除非在应用服务器、语音浏览器以及移动站的用户代理中实现专门的同步机制。

以一种称为SALT(Speech Application Language Tags(语音应用程序语言标记)，Microsoft)的已知结构为例，它包括一小部分XML组件(listen(侦听)，prompt(提示)，DTMF)，当被加入原有的HTML/XHTML页面中后，对内容提供语音接口。为了翻译这些新标记，需要SALT语音浏览器或SALT多模浏览器。但是，它没有规定在哪个节点合并HTML/XHTML内容和SALT标记。这种结构或者需要SALT多模浏览器，或者在通过普通电话提供访问的情况下，要求电话服务器翻译所访问页面中的SALT脚本。对于内容管理而言，或者内容提供者修改原有内容以包括SALT标记，或者可以提供一个包括这种功能的代理。两种情况下都有不支持SALT的浏览器试图翻译SALT标记时可能会崩渍的危险。由于无线浏览器的存储能力有限，一般很难处理新的XML标记。正如我们所看到的，在内容中引入新标记显然是很不利的。SALT结构也是一种复杂结构，而且如果内容并非SALT兼容的，除了电话服务器实现对端功能——例如将SALT标记转换成语音——外还需要一个SALT代理加入SALT标记。如果使用SALT浏览器，要进行反向转换。因此，为了理解SALT标记，SALT浏览器必须包含语音识别以及文本转到语音系统或者能与该系统通信。在终端上开发这种功能基本上是很困难的，而且这意味着必须使用远端系统。但是这个问题在SALT结构的建议中并没有强调。总而言之，SALT结构实现太困难，对大规模应用来说太复杂而且效率低。

发明内容

因此本发明的一个目的是提供一种装置，通过它能够以不太复杂、而且大规模实现比较方便的方式对内容进行多模访问。发明的另一目的是提供一种装置，通过它要访问的原有内容不必受到影响，以及这样的一种装置，通过它可以访问任何基于标记的内容，例如大量的HTML/XHTML网页内容，不需要将内容转换成诸如VoiceXML之类，或者不要求必须具备新标记的内容。此外，发明的目的还是提供一种装置，通过它可以使用现有基础设施，也就是原则上可以使用任何浏览器以及任何双模移动站，同时仍然允许多模访问。发明的目的还有提供一种装置，通过它可以提供对内容的多模访问而不需要对浏览器的接口进行改变。其目的特别是提供一种装置，通过它可以基于语音访问或常规访问的方式访问网页内容，而不管其中提供的内容是何种格式。发明的一个特别目的是提供一种装置，通过它可以在用户代理中的常规浏览器和语音浏览器之间提供同步。

发明还有一个目的是提供一种多模访问内容的方法，通过它可以满足上述的一个或多个目的。

因此提供了一种允许多模式访问的装置。此外提供了多模式访问互联网内容的方法。

有利的或者优选的实施例通过所附的子权利要求给出。

发明的一个好处是任何网页内容都可以通过语音浏览或者通过常规浏览来访问，不管所提供的内容是何种格式，而且不必转换任何内容或者对内容提供标记等。还有一个好处是已有设备可以用于实现发明的概念。另外一个好处在于服务提供商不必提供两种标记或重新标记。

附图的简要描述

下面将以非限定的方式、并参考所附的附图进一步描述发明，其中：

图1是根据发明的装置的示意框图，

图2同图1一样是一个框图，根据一个实施例详细描述过程，

图3是增强型代理服务器的简化框图，包括根据发明的语音浏览功能，

图4是描述根据发明的过程的一般流程图，

图5是一个流程图，更详细地描述用根据发明的装置使用语音浏览访问网页内容的过程，以及

图6是一个流程图，示意性地描述普通浏览和语音浏览之间同步过程的一个实施例。

发明的详细描述

发明建议了一种装置，包括选择语音词汇关键词或者单元，能够通过语音命令主要是访问全球数据通信系统中任意的诸如HTML/XHTML之类的页面或者内容，通过该装置能够进行多模浏览而不需要对原有内容进行任何改变。

图1示意性地说明了根据发明的一种装置，包括支持语音和数据同时通信的双模移动站1，而且包括本来已知的用户代理。此外，该装置包括具有增强功能的代理服务器，意即代理服务器2具有语音功能，增强了语音浏览功能。它能够从任何格式的浏览网页内容中提取关键词，这些格式例如受预定格式控制的HTML/XHTML之类。关键词词汇表存储在增强代理服务器2的词汇表存储装置21中。关键词被强调或者用某种方式指出，例如在原有网页中加高亮，这样移动站1的终端用户会知道在语音命令中使用什么关关键元素或关键词选择特定的超级链接。增强型的代理服务器2与包含了自动语音识别器(ASR)31的电话平台3接口。由于浏览功能中具有关键词定位特性，自动语音识别器31最好是词汇中等大小的语音识别器。这样的ASR31通常能够识别连续的与说话者无关的语音。这是一个优点，因为建立所建议结构的系统时不需要进行用户训练。

移动站1必须支持同时的语音和数据会话。通过增强型代理服务器2，可以访问应用服务提供商(ASP)4所提供的内容。

电话平台3也包括文本-到-语音(TTS)模块。在语音交互过程中，每当收到的命令不太清楚时，增强型代理服务器2使用语音对话/提示。将标准文本消息转发到电话平台3中的TTS模块。TTS模块将消息转换成语音对话，然后通过话音信道发送到终端用户，话音信道的建立将在下面更完整地描述。代理服务器2分析从应用服务提供商ASP4获得的内容，并使用某种分析器——例如下面将提到的句法分析器——分析所访问页面中的段落，以便找到有意义的关键元素或关键词。

正如上面提到的，电话平台3中的文本-到-语音(TTS)模块将文本消息转换成语音对话，然后通过所建立的话音信道发送到终端用户。例如，语音对话可能类似“你选择了包含关键词X的段落吗？”

正如上面提到的，可能要预定义不同类型的规则并用于提取关键元素或关键词。最好是实现自适应的关键词提取。有一个实施例使用的是所谓的句法规则。其中的例子类似“使用与单个超级链接关联的段落中的主语和谓语”这样的规则。可以实现针对词汇表中提供的关键词对几种句法规则排列优先级。

预定规则的另一个例子可能涉及简单规则，例如“在超级链接名称或与之关联的段落中选择唯一的关键词”。与简单规则关联的语音命令可能是“进入X”或者“进入包含X的段落”。

在另一种实现中，使用数字规则。这是指对内容或页面中的超级链接、或一个而且同一个段落中的多个超级链接编号。这种方法也可以用于选择菜单中的选项。通常至少识别编号方式这种最低要求应该是词汇表所支持的。

因此，第一次通信是在增强型代理服务器2和带有绑定了应用程序/词汇表的自动语音识别器31的电话平台3之间建立的。换句话说，连接两个节点的请求从增强型代理服务器2发送到电话平台3，请求它指定有关的词汇表，然后将词汇表提供给增强型代理服务器2。然后注册用户、也就是移动站1的终端用户可以打开正常的浏览会话。增强型代理服务器2为每个注册用户包含一个注册用户记录。

为了触发语音浏览功能，应该有一种方式表示该功能是否应该启动。这可能是触发语音浏览的一个关键词，或者所访问网页中插入的一个超级链接，它们根据选择触发移动站1和电话平台3的ASR 31之间话音信道的打开。来自终端用户的请求被转发到ASP 4。(完成这件事与语音浏览是否打开无关。)ASP 4则向增强型代理服务器发回所访问的页面，后者解析内容并根据上面提到的任何一个与提取关键词的规则有关的方法分析段落。增强型代理服务器2以任何恰当的方式强调所发现的关键词。为有关的浏览会话存储它的ID以及注册用户的MSISDN和所选的关键词。修改后的页面或内容则被发送到MS1。因此用ASR 31打开语音浏览会话。这样话音信道和数据会话信道同时打开。ASR 31则将用户话音命令中识别的关键词转发到增强型代理服务器2。关键词在增强型代理服务器中分析并与前面解析所访问页面的内容时选择的那些匹配。如果出现了匹配，当向ASP 4发送GET请求时代理就使用前面步骤中得到的链接。

通常当实现多模浏览时，需要在用户代理中的HTTP浏览器和包含话音浏览功能的语音浏览器之间提供一种同步机制。由于增强型代理服务器2自动从内容页面中提取关键词，不必为HTML/XHTML内容开发特殊的语音标记。此外，由于所使用的“推”机制在用话音命令识别出一些超级链接之后能够迫使内容刷新，多模用户输入将会是同步的。

就ASR识别的词汇表而言，中等大小的词汇表调节到所识别语言中最常用的大约2000-3000词就足够了，尽管本发明对此并无限制。对段落中不太建议的关键词可以做标准语音查询/提示，以防最合适的关键词不在所识别的词汇表中。例如可以选择VoiceXML定义这种语音查询/提示。增强型代理服务器包含“推”机制，当MS中的用户代理通过话音命令取得了所指示的页面之后迫使其刷新内容。在一种实现中，这可以基于本描述后面将完整解释的、插入每个返回页面中的一种信号对象(刷新开/关)以及与页面一起下载的脚本来完成。脚本迫使信号值的周期性刷新，因此允许用户代理检测到何时增强型代理服务器请求了页面刷新。根据信号值，脚本可以触发整个页面的刷新，因此下载新的内容。

图2是类似于图1的框图，但是明确地指出并解释了根据一个特定实施例的不同步骤。信号I涉及增强型代理服务器连接到带有ASR31的电话平台3，请求带有ASR 31的电话平台3指定识别的应用程序/词汇表。这样做在ASR具有几个实现各种用户/系统语音接口的应用程序时特别有利，例如特定的语音提示序列、所允许的击键、词汇表等。

然后ASR 31返回应答II，带有词汇表中包含的的词并且指定电话平台3所支持的特性，例如启动回呼、话音端口号等。最好是也返回所调用应用程序的ID。注册用户则打开正常的浏览会话，III。为了支持话音浏览，需要在增强型代理服务器2中的注册用户记录中存储特定的信息。这种信息包括话音浏览是否打开的指示、触发话音浏览的可选关键词、插入所访问的网页或网页内容中的可选的超级链接名称，当选择了它们时触发电话平台3的ASR与移动站1之间话音信道的打开。

当注册用户打开正常浏览会话时，其结果导致向增强型代理服务器2发送一个HTTP请求。增强型代理服务器2则对用户鉴权并检查话音浏览是否打开(见上面)。于是HTTP请求被转发到应用服务提供商ASP4，IV。如果启动了话音浏览，或者本来就是打开的，代理服务器就选择一种方法打开上面提到的话音信道，具体的要根据用户的简档。这可以用不同方式完成，或者自动地(根据下面的步骤VIII、IX)或者当用户在浏览过程中选择一个特定的HTTP链接而触发。这里不再说明或进一步解释，但是这同样是所发明的概念所涵盖的。

ASP 4则向增强型代理服务器2发回访问所请求的HTML/XHTML页面，V。增强型代理服务器则在步骤VI中解析接收内容并使用例如句法分析器分析内容或网页中的段落以便找到有意义的关键词。当然也可以使用上面提到的其它分析方法。或者选择超级链接名称中的词作为关键词。但是所选的关键词必须是可下载的词汇表中的，而且不应该听起来接近或类似话音命令。然后在页面中强调关键词，例如加高亮。这可以用不同方式实现，例如用下划线。关键词可以出现在几个多词的话音命令中，条件是命令之间要有足够的区分信息，即不能太相似。对每个浏览会话，应该在增强型代理服务器2中存储话音浏览会话的ID、注册用户的MSISDN以及所选的关键词。修改的内容或页面则由增强型代理服务器2发送到移动站1，VII。

对于鉴权成功的用户则以与ASR 31打开话音浏览会话，VIII。请求应该包括话音浏览会话ID、终端用户MSISDN以及应用程序ID(如果在上面的步骤II中已经提供)。电话平台3使用指定的MSISDN进行对移动站1的呼叫。话音信道与数据会话信道同时在ASR和MS 1之间打开，IX。这就是在上面步骤IV讨论的自动打开话音信道。正如上面提到的，话音信道也可以通过用户选择特定的超级链接而手动打开和关闭。在另一个实现中，如果移动站将语音IP(VoiceoverIP)用于话音业务，话音浏览代理可以只用数据信道，这样就不必打开专用的话音信道了。但是涉及特定实施例，这里就不再进一步讨论了。

话音信道打开之后，也就是用户应答了呼叫之后，ASR 31将状态数据返回增强型代理服务器2，X。此外，ASR 31将终端用户给出的话音命令中识别出来的关键词转发到代理，XI。特别地，每个关键词要伴有它的识别概率。增强型代理服务器2分析关键词，并试图将它们与上面步骤VI中选择的那些匹配。如果几个高亮的关键词都以一定的置信度关联于命令中识别的关键词，或者如果启动了话音确认，那么增强型代理服务器2将向电话平台3中的ASR 31发送一个播放文本。根据终端用户的应答，增强型代理服务器2随后将决定应该使用哪个链接。为了简单起见，图中没有表示出话音提示。因此当找到链接之后，增强型代理服务器2使用所述链接向ASP 4发送GET请求，XII。应答XIII则提供给增强型代理服务器2，而且当收到应答时，增强型代理服务器2按照上面参照步骤XI的解释处理内容。然后增强型代理服务器2将页面推给移动站1的用户代理。

所建议的话音浏览结构以及关键词的选择以自然的方式解决了移动站用户代理和话音浏览器之间同步的问题。由于增强型代理服务器自动从接收并检查的内容页面中提取关键词，因此不必为HTML/XHTML内容开发特殊的话音格式。此外，在使用话音命令指定了某个超级链接之后，由于使用“推”机制迫使内容刷新，多模用户输入将总是同步的。一种提供同步的有利方式是基于信号对象的。用于迫使内容刷新等的“推”机制将在下面参考图6进一步描述。

根据本发明，不用在内容中加入新标记。增强型代理服务器唯一对内容所做的修改是改变标记属性，例如颜色，使用户能够知道浏览时使用什么关键词。因此，不会给现有浏览器带来崩渍的危险。一般来说任何浏览器都可以使用。此外，由于内容或网页中没有什么新的东西，也就是没有新的标记，浏览操作将不会有什么变化。代替点击一条链接，用户使用自然的语言命令选择与该链接有关的关键词。由于具有关键词定位功能，用户可以使用包含关键词的任何自然词汇序列。实际上是增强型话音浏览代理服务器选择关键词并通过某种强调它们的方式把它们显示给终端用户，这些方式例如加高亮、下划线或诸如此类。浏览器的接口不做任何改变，仍然是HTML/XHTML(如果使用的是这些标记语言的话)。除此之外，多模移动站不必联系远端语音识别器。移动站不会收到任何语音标记。相反是增强型代理服务器联系远端的语音识别器ASR。这就意味着不需要开发从终端到ARS的新接口，更不需要在终端中开发的最差情况。同样意味着所有现有的双模终端都可以不加修改地使用。根据本发明、以及上面的解释，使用根据某个规则的原理选择关键词，这就意味着内容转换可以自动地由增强型代理服务器来执行。为此使用了内容中的现有链接，因此这是可能的。简单的解决方法就是增强型代理服务器选择链接名称内或与链接关联的段落内的词作为关键词。尽管如此，当然也可以使用更复杂的规则。意即由于关键词定位机制能够进行关键词的动态选择。

图3以稍微一般化的方式表示了根据一个特定实施例的过程步骤。首先假设为一个代理服务器、通常是具有常规浏览功能的任何适当的代理服务器提供增强的功能，使之也支持话音浏览，100。然后增强型代理服务器向带有ASR的电话平台发送有关词汇表规范的查询，101。然后从电话平台/ASR获得有关的词汇表、以及优选的也包括有关应用程序的应用程序ID，送到增强型代理服务器，102。

随后当MS用户代理向增强型代理服务器发送GET请求(例如HTTP)时，(在服务器)中检查话音浏览是否激活(打开)，如果是，那么请求就被转发到ASP，103。(同样对于常规请求(即没有话音浏览)来说，当然也要将请求转发到ASP，但是这些本身是已知的。)如果话音浏览是激活的(打开)，代理服务器就选择适当的方法打开话音信道，104。ASP向增强型代理服务器发送响应，其中带有原始的请求页面，105。增强型代理服务器则搜索关键词。如果找到了，就用恰当的方式指示出来，例如，加高亮等，106。然后增强型代理服务器向MS用户代理发送带有按照上述修改了(加了高亮的关键词或诸如此类)的页面的响应(HTTP)，107。

增强型代理服务器通过所选的话音信道打开方法打开ASR/电话平台和MS之间的话音信道，108。ASR/电话平台向增强型代理服务器发送一个通知，有关来自终端用户语音流中识别的关键词，109。增强型代理服务器则将识别的关键词与修改页面中用某种方式指示的关键词比较，并向ASP发送GET请求，获得新的HTTP地址，110。最后MS用户代理通过增强型代理服务器更新新的页面，111。

同样的过程用稍微详细的方式参考图4的序列图说明(同样参考图2的框图)。增强型代理服务器(也称为话音浏览代理)向ASR/电话平台发送Bind(绑定)请求(即，查询识别词汇表)，1。ASR/电话平台向话音浏览代理返回带有词汇表和应用程序ID的Bind(绑定)应答，2。MS用户代理(这里的)向话音浏览代理发送HTTP GET请求(http地址)，3，代理将HttpGet(http地址)转发到ASP，4。如果话音浏览打开了，就获取话音信道的激活方法。ASP向话音浏览代理提供Http响应(原有的页面)，5。

然后话音浏览代理搜索关键词，6，并对它们加高亮或下划线。当然也可以使用一些其它方法表示关键词。这样被修改的页面就在HTTP响应中提供给MS用户代理，7。然后话音浏览代理打开话音信道，有关的应用程序ID、会话ID以及MSISDN(从MS)通过该请求送到ASR/电话平台，8。ASR/电话平台则用指定的MSISDN对MS电话进行呼叫，步骤9，并向话音浏览代理确认给定会话ID的话音信道已打开，10，即发送状态数据。ASR也在包含会话ID、话音命令以及概率的通知中告诉代理所识别的关键词，11。(呼叫已经被用户应答。)最好是每个关键词都带有对应的识别概率。

话音浏览代理试图将识别的关键词与页面中加高亮的关键词匹配或比较。如果没有匹配的，可以使用话音提示。假设话音浏览代理找到一个链接，而且使用这个链接话音浏览代理向ASP发送GET请求(HttpGet(新Http地址))，12。从ASP收到响应(HttpResponse(新页面))13之后，处理内容，然后用新页面更新MS用户代理，因此新页面被推到MS用户代理，14。这样就可以获得同步，这一点将参考图6更完整地描述。

图5是根据实现关键词分析的一个发明实施例，对关键词选择机制的示意说明。首先明确将要启动关键词分析，200。这里的分析是通过在超级链接段落中按照有关句法规则搜索关键词来进行的，201。然后确定是否发现了任何一个(多个)关键词，202。如果没有，就实现词汇表关键词查找，203，也就是搜索识别词汇表中的关键词。如果找到了一个(多个)关键词，也就是在步骤202或步骤203任意一个中找到了，就完成关键词搜索，206。

但是如果关键词查找的结果是否定的，就进行超级链接编号方式，205。这就意味着为超级链接或文本段落指定编号。然后结束关键词分析。

图6给出了一个可以根据一个发明实施例使用的同步机制的例子。涉及的是MS用户代理和增强型代理服务器(也称为话音浏览代理)之间的同步机制。首先MS用户代理向话音浏览代理发送GET请求，21。代理将请求转发到ASP，22。ASP再用原始页面应答话音浏览代理，23。然后在页面中引入一个定时器单元控制脚本的重载，代理向MS用户代理发送带有修改的页面、更新信号(关闭)的响应，24。定时器过期(超时)时，MS用户代理向代理发送指出信号更新的脚本地址的GET请求，25。

话音浏览代理向MS用户代理发送带有更新信号脚本(关闭)的响应，26。ASR/电话平台则向代理发送带有会话ID、话音命令以及优选的概率在内的通知，27。新页面地址通过将话音命令(参考图4)与指示(例如，加高亮)的一个关键词匹配来确定。在话音浏览代理中，当识别到话音命令时脚本将信号设为打开，28。超时的时候，也就是定时过期了，MS用户代理向话音浏览代理发送GET请求，指出信号更新的脚本地址，29。话音浏览代理向MS用户代理返回一个带有更新信号脚本(打开)的响应，30。MS用户代理则向话音浏览代理发送GET请求(重载页面地址)，31。代理识别出重载页面地址参数并代之以话音浏览页面的地址。代理向ASP发送GET请求，32，请求新地址。带有新页面的响应从ASP提供给代理，33，代理将其转发到MS用户代理，34。

因此，在这个实现中，MS中的用户代理与话音浏览代理之间的同步机制是基于话音浏览代理插入原始XHTML内容中的信号对象(客户端信号)。信号的原始备份(代理信号)存储在代理中，而且在话音浏览内容需要“推”向MS时被设置为打开。同步是通过用代理信号的值周期性更新客户端信号实现的。更新页面中的一个对象、而不是整个内容需要很少的带宽。在客户端侧，与原来载入的XHTML页面同时下载的脚本连续检查客户端信号，以便发现代理是否已经要求了页面/卡GET。这个来自客户端侧的GET请求实际上代表的是模仿代理“推”话音浏览内容的方法。在代理一侧，每当识别出话音命令时脚本就将代理信号设置为打开。代理信号复位可以出现在客户端信号更新之后。

由于XML语言不支持信号单元类型，应该使用一种语言特定的模本。下面将其称为WML(无限标记语言)2.0规范。同时使用WMLScript标准库实现所建议的功能。

客户端信号通过WML脚本变量建模。这个脚本是从代理得到的，它的主要任务是触发HTTP GET方法，获取话音浏览页面/卡。代理存储了两个版本的脚本。一个是信号设置为“打开”，另一个是信号设置为“关闭”。但是，只有反映代理信号状态的版本将被放入客户端寻找脚本的URL路径。下面说明了脚本的一种可能的实现：

extern function updateSemaphore()

{

var semaphore＝“semaphoreValue”；

If(semaphore＝“ON”)

{

var ur1＝

“http://browsingProxy.ericsson.se/wm1/getPage.wm1”；

WMLBrowser.go(ur1)；

}}

周期性调用updateSemaphore脚本是通过使用代理插入原有WML页面/卡的定时器单元来实现的。当定时过期时，将从代理获取二进制脚本，并执行。一旦信号设置为打开，就发出HTTP GET获取话音浏览页面/卡。代理将客户端请求中的URL重新映像到从话音命令翻译得到的URL，并向ASP发出HTTP GET。话音浏览内容则可以不需任何用户干预地下载到用户代理。信号可以从WML卡调用，如下：

<card>

<go

href＝“http://browingProxy.Ericsson.se/scripts/semaphore.

wm1/s#updateSemaphore()”/>

</onevent>

</card>

Claims

1.一种允许多模式访问全球数据通信网络上内容的装置，包括带有用户代理的移动站、代理服务器以及电话平台，其特征在于，

移动站是支持同时的语音及数据会话的双模站，

代理服务器包括支持语音浏览的增强功能，

电话平台包括自动语音识别器以及将文本消息转换成语音的模块，

所述的代理服务器与电话平台的自动语音识别器接口，在原有网页内容中预定义并标明了关键元素，

而且当代理服务器使用预定的规则识别/提取出所述关键元素时，触发话音浏览，这样任意的网页内容都可以通过话音命令而不需要转换网页内容而访问。

2.根据权利要求1的装置，其特征在于实现了多模浏览。

3.根据权利要求1或2的装置，其特征在于代理服务器针对所述关键元素解析所访问的网页内容。

4.根据权利要求1的装置，其特征在于所访问的网页内容是通过击键或鼠标点击方式浏览的。

5.根据权利要求1的装置，其特征在于允许基于话音访问任何基于标记的内容，所述内容为HTML/XHTML网页内容。

6.根据权利要求1的装置，其特征在于移动站用户使用网页内容中指示的关键元素选择特定的超级链接。

7.根据权利要求1的装置，其特征在于代理服务器的话音浏览功能实现关键词定位。

8.根据权利要求1的装置，其特征在于代理服务器与包括中等大小词汇表语音识别器的自动语音识别器接口。

9.根据权利要求1的装置，其特征在于预定的提取话音关键元素的规则是句法规则。

10.根据权利要求1的装置，其特征在于预定的提取话音关键元素的规则与在超级链接名称中选择唯一的关键词有关。

11.根据权利要求1的装置，其特征在于预定的提取话音关键元素的规则是编号规则，对内容或类似东西中的超级链接编号。

12.根据权利要求1的装置，其特征在于代理服务器向电话平台中的文本到语音模块转发文本提示，其中的文本消息被转换成语音并通过代理服务器所建立的话音信道转发给用户。

13.根据权利要求1的装置，其特征在于在用户代理的常规浏览器和代理服务器的语音浏览器之间提供一种同步机制。

14.根据权利要求13的装置，其特征在于代理服务器包括一种“推”机制，能够使MS用户代理刷新所指示的获取的内容。

15.根据权利要求14的装置，其特征在于在返回代理服务器的内容中引入一个信号对象，表示是否激活内容刷新。

16.根据权利要求1的装置，其特征在于在代理服务器和电话平台的自动语音识别器之间建立一个连接，规定并指明要访问的调用应用程序。

17.根据权利要求16的装置，其特征在于代理服务器包括多个注册用户记录、以及每个注册用户应该支持哪种话音浏览、表示话音浏览激活的装置、插入所访问的网页页面/内容中的触发话音浏览的可选关键元素或可选的超级链接名称，当它们被选择时，用于自动语音寄存器和移动站之间话音信道的建立。

18.根据权利要求16或17的装置，其特征在于如果激活了话音浏览，访问请求就从代理服务器转发到有关的应用服务提供商，后者将请求的页面/内容返回代理服务器，而且所述代理服务器包括解析和分析装置，用于寻找并指示关键元素，然后将这样修改的内容/页面转发给移动站。

19.根据权利要求18的装置，其特征在于对话音浏览的请求必须至少包括话音浏览会话ID以及用户站的MSISDN。

20.根据权利要求19的装置，其特征在于对于一个被代理服务器鉴权过的用户，在自动语音寄存器和移动站之间，与数据会话信道同时建立话音信道。

21.根据权利要求20的装置，其特征在于，将来自终端用户的话音命令中识别出来的关键词提供给代理服务器，而且代理服务器包括将识别的话音命令与存储的关键元素/字匹配的匹配装置，以便找到有关的超级链接，据此向应用服务提供商发送请求，而且当代理服务器收到所请求的内容时，对其进行解析、分析并推到用户代理。

22.根据权利要求12的装置，其特征在于，为了移动站的用户代理和代理服务器之间的同步，由代理服务器引入一个客户端信号对象，插入原始备份存储在所述服务器中的原始内容中，并当话音浏览内容被推到移动站时激活。

23.根据权利要求22的装置，其特征在于客户端信号对象用代理服务器中的信号对象值周期性更新。

24.根据权利要求23的装置，其特征在于在用户代理中随着原始内容下载的脚本不断检查客户端信号对象，确定是否需要内容刷新，而且在代理服务器中使用一个脚本激活代理信号对象。

25.根据权利要求23或24的装置，其特征在于客户端信号对象使用无线标记语言脚本变量生成，从代理服务器获取，而且在代理服务器中存储所述脚本的第一和第二版本，第一版本包括信号激活的脚本，第二版本包括指示信号不激活的脚本。

26.一种提供从双模移动站同时多模访问互联网内容的方法，其特征在于它包括如下步骤：

—提供支持话音浏览的增强功能的代理服务器，

—在代理服务器和带有自动语音寄存器的电话平台之间建立一个连接，

—建立/定义用于话音浏览的关键元素，

—确定话音浏览是否要激活并被支持，如果是，

—在移动站和自动语音寄存器之间基于用户简档建立话音信道，

—将请求转发给有关的应用服务提供商，

—解析内容并分析内容/网页中的段落以便找到关键元素，

—在代理服务器中通过改变标记属性而修改内容，以便用户能识别出关键元素，

—将前一步骤中修改的内容发送给移动站，

—打开话音浏览会话，

—与数据会话信道同时打开话音信道，

—在代理服务器中，将用户话音命令中识别的关键词与预定并选择的关键字匹配，以便确定使用哪个链接向有关的应用服务提供商发送获取请求，

—处理从应用服务提供商接收的内容并将其推给用户代理。