WO2019056821A1

WO2019056821A1 - 用于信息交互的方法及装置

Info

Publication number: WO2019056821A1
Application number: PCT/CN2018/092870
Authority: WO
Inventors: 田晓丽; 方高林; 顾晓光; 米雪; 孙珂; 丁鑫哲; 孙瑞盈
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2017-09-19
Filing date: 2018-06-26
Publication date: 2019-03-28
Anticipated expiration: 2020-03-19
Also published as: EP3480704A4; JP2019536122A; US20190163699A1; EP3480704A1; JP6783375B2; CN107590252A

Abstract

本申请实施例公开了用于信息交互的方法及装置。该方法的一具体实施方式包括：获取待处理信息，上述待处理信息包括文字信息和图像；提取上述待处理信息的文字信息的特征词，基于上述特征词查找上述待处理信息的图像的描述信息，其中，上述特征词用于表征对上述图像的查找请求，上述描述信息用于表征对上述图像的文字描述；通过上述描述信息构建上述待处理信息的应答信息。该实施方式通过描述信息构建应答信息，实现了与待处理信息之间的信息交互，提高了信息交互的效率。

Description

用于信息交互的方法及装置

本专利申请要求于2017年9月19日提交的、申请号为201710847084.6、申请人为百度在线网络技术(北京)有限公司、发明名称为“用于信息交互的方法及装置”的中国专利申请的优先权，该申请的全文以引用的方式并入本申请中。

技术领域

本申请涉及数据处理技术领域，具体涉及信息交互技术领域，尤其涉及用于信息交互的方法及装置。

背景技术

识图技术是当前正在高速发展的一项技术，识图技术的一个重要方向是：通过对图像中的内容进行理解并识别，满足用户的认知需求。现有对图像的识别通常是将待识别图像导入图像搜索引擎，以便找到相同或相似的图像，即以图找图。

在人们的日常工作中，并不是每个图像都要进行以图找图操作，是否需要以图找图需要根据实际需要而定。很多情况下，用户在通过文字和图像传达信息时，可能没有直接建立文字和图像之间的对应关系(例如，包含了文字和图像，但没有通过文字对图像进行说明等)，看到文字和图像的用户也可能无法进行相应的信息反馈(例如，用户不知道图像中的内容等)，这就容易出现信息传达错误或不准确的情况，信息交互的效率不高。

发明内容

本申请实施例的目的在于提出了用于信息交互的方法及装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请实施例提供了一种用于信息交互的方法，该方法包括：接收用户的网页浏览请求，其中，该网页浏览请求包括网址；获取待处理信息，上述待处理信息包括文字信息和图像；提取上述待处理信息的文字信息的特征词，基于上述特征词查找上述待处理信息的图像的描述信息，其中，上述特征词用于表征对上述图像的查找请求，上述描述信息用于表征对上述图像的文字描述；通过上述描述信息构建上述待处理信息的应答信息。

在一些实施例中，上述提取上述待处理信息的文字信息的特征词包括：对文字信息进行语义识别，得到对应上述文字信息的语义信息；从上述语义信息中提取特征词。

在一些实施例中，上述基于上述特征词查找上述待处理信息的图像的描述信息包括：将图像导入图像查找模型，得到与上述图像对应的待匹配图像集合，上述待匹配图像集合包括至少一张待匹配图像，上述图像查找模型用于表征图像与待匹配图像之间的第一对应关系；将待匹配图像导入语义标签模型，得到对应待匹配图像集合的语义标签集合，上述语义标签模型用于表征待匹配图像与语义标签的第二对应关系，语义标签用于对待匹配图像进行文字说明；从上述语义标签集合中筛选出一个待识别语义标签，将待识别语义标签中的与上述图像对应的名词的解释信息作为描述信息。

在一些实施例中，上述从上述语义标签集合中筛选出一个待识别语义标签包括：统计上述语义标签集合中相同的语义标签的数量，将数量最多的语义标签作为待识别语义标签。

在一些实施例中，上述方法还包括：对上述描述信息进行修正的步骤，上述对上述描述信息进行修正的步骤包括：接收对应上述应答信息的反馈信息，上述反馈信息用于评价上述应答信息的准确性；对上述反馈信息进行语义识别，得到准确率信息；在上述准确率信息低于设定阈值时，从上述语义标签集合中除待识别语义标签以外的语义标签中选择二次待识别标签；将二次待识别标签中的与上述图像对应的名词的解释信息作为二次描述信息；通过二次描述信息构建上述待处理信息的应答信息。

第二方面，本申请实施例提供了一种用于信息交互的装置，上述该装置包括：待处理信息获取单元，用于获取待处理信息，上述待处理信息包括文字信息和图像；描述信息获取单元，用于提取上述待处理信息的文字信息的特征词，基于上述特征词查找上述待处理信息的图像的描述信息，其中，上述特征词用于表征对上述图像的查找请求，上述描述信息用于表征对上述图像的文字描述；应答信息构建单元，用于通过上述描述信息构建上述待处理信息的应答信息。

在一些实施例中，上述描述信息获取单元包括：语义识别子单元，用于对文字信息进行语义识别，得到对应上述文字信息的语义信息；特征词提取子单元，用于从上述语义信息中提取特征词。

在一些实施例中，上述描述信息获取单元包括：待匹配图像获取子单元，用于将图像导入图像查找模型，得到与上述图像对应的待匹配图像集合，上述待匹配图像集合包括至少一张待匹配图像，上述图像查找模型用于表征图像与待匹配图像之间的第一对应关系；语义标签获取子单元，用于将待匹配图像导入语义标签模型，得到对应待匹配图像集合的语义标签集合，上述语义标签模型用于表征待匹配图像与语义标签的第二对应关系，语义标签用于对待匹配图像进行文字说明；描述信息获取子单元，用于从上述语义标签集合中筛选出一个待识别语义标签，将待识别语义标签中的与上述图像对应的名词的解释信息作为描述信息。

在一些实施例中，上述描述信息获取子单元包括：统计上述语义标签集合中相同的语义标签的数量，将数量最多的语义标签作为待识别语义标签。

在一些实施例中，上述装置还包括：修正单元，用于对上述描述信息进行修正，上述修正单元包括：反馈信息接收子单元，用于接收对应上述应答信息的反馈信息，上述反馈信息用于评价上述应答信息的准确性；准确率信息获取子单元，用于对上述反馈信息进行语义识别，得到准确率信息；二次待识别标签获取子单元，用于在上述准确率信息低于设定阈值时，从上述语义标签集合中除待识别语义标签以外的语义标签中选择二次待识别标签；二次描述信息获取子单元，用于将二次待识别标签中的与上述图像对应的名词的解释信息作为二次描述信息；二次应答信息构建子单元，用于通过二次描述信息构建上述待处理信息的应答信息。

第三方面，本申请实施例提供了一种服务器，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器执行上述第一方面的用于信息交互的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述第一方面的用于信息交互的方法。

本申请实施例提供的用于信息交互的方法及装置，提取待处理信息的文字信息的特征词，并得到待处理信息的图像的描述信息，建立了待处理信息中文字信息与图像的对应关系；之后，通过描述信息构建应答信息，实现了与待处理信息之间的信息交互，提高了信息交互的效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的用于信息交互的方法的一个实施例的流程图；

图3是根据本申请的用于信息交互的方法的一个应用场景的示意图；

图4是根据本申请的用于信息交互的装置的一个实施例的结构示意图；

图5是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于信息交互的方法或用于信息交互的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以发送待处理消息或接收应答信息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、即时通信工具、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持信息编辑的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上的待处理信息进行信息处理的服务器。服务器可以获取终端设备101、102、103上的待处理信息，从待处理信息的文字信息中提取特征词，基于特征词查找待处理信息的图像的描述信息；最后，通过描述信息构建对应待处理信息的应答信息，实现了信息交互。

需要说明的是，本申请实施例所提供的用于信息交互的方法可以由终端设备101、102、103单独执行，或者也可以由终端设备101、102、103和服务器105共同执行。相应地，用于信息交互的装置可以设置于终端设备101、102、103中，也可以设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的用于信息交互的方法的一个实施例的流程200。该用于信息交互的方法包括以下步骤：

步骤201，获取待处理信息。

在本实施例中，用于信息交互的方法运行于其上的电子设备(例如图1所示的终端设备101、102、103或服务器105)可以通过有线连接方式或者无线连接方式获取待处理信息，其中，待处理信息包括文字信息和图像。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

用户可以在终端设备101、102、103上的某一信息处理应用中进行与文字和图片相关的操作。例如，用户在信息处理应用中输入了文字信息和图像。其中，图像可以是包含各种对象(例如可以是某种植物的图像、动物的图像等)，文字信息可以是：“刚才外面拍的，没见过，谁知道”。则终端设备101、102、103或服务器105就可以将这些包含文字信息和图像的信息作为待处理信息。

步骤202，提取上述待处理信息的文字信息的特征词，基于上述特征词查找上述待处理信息的图像的描述信息。

获取到待处理信息，首先需要从待处理信息包含的文字信息中提取特征词。其中，上述特征词用于表征对上述图像的查找请求，例如，特征词可以是：“谁知道”、“是什么”等。

提取到特征词，说明用户有意图想知道图像的信息。之后，就可以通过多种方式查找图像的描述信息，其中，上述描述信息用于表征对上述图像的文字描述。描述信息可以是：“XXX(植物名称)，学名XX，百合科百合属，多年生草本植物，原产中国···”。

在本实施例的一些可选的实现方式中，上述提取上述待处理信息的文字信息包含的特征词可以包括以下步骤：

第一步，对文字信息进行语义识别，得到对应上述文字信息的语义信息。

还以上述的文字信息：“刚才外面拍的，没见过，谁知道”为例，对该文字信息进行语义识别，得到的对应的语义信息可以是：“图像中是什么”。

第二步，从上述语义信息中提取特征词。

上述的语义信息为：“图片中是什么”，对应的特征词可以是：“图片”和“是什么”。

需要说明的是，待处理信息的文字信息也可以直接包含特征词。例如：文字信息可以是“谁知道图里是什么植物”，其中，“图”、“是什么”、“植物”就可以是特征词。

在本实施例的一些可选的实现方式中，上述基于上述特征词查找上述待处理信息的图像的描述信息可以包括以下步骤：

第一步，将图像导入图像查找模型，得到与上述图像对应的待匹配图像集合。

图像查找模型能够提取输入的图像的图像特征，然后通过本地的图像库或联网等方式，找到包含相同或相似图像特征的图像作为待匹配图像。其中，上述待匹配图像集合可以包括至少一张待匹配图像，上述图像查找模型用于表征图像与待匹配图像之间的第一对应关系。第一对应关系可以是指导入的图像与待匹配图像之间的相同或相似的关系。

第二步，将待匹配图像导入语义标签模型，得到对应待匹配图像集合的语义标签集合。

待匹配图像从现有的本地或网络上找到的，与导入的图像相同或相近的图像。得到待匹配图像后，可以将待匹配图像导入语义标签模型，以得到对应待匹配图像的语义标签。其中，上述语义标签模型用于表征待匹配图像与语义标签的第二对应关系，语义标签用于对待匹配图像进行文字说明。例如，对应某一待匹配图像的语义标签可以是：“这是百合花”。

第三步，从上述语义标签集合中筛选出一个待识别语义标签，将待识别语义标签中的与上述图像对应的名词的解释信息作为描述信息。

向图像查找模型导入一张图像可以得到至少一个待匹配图像，每个待匹配图像都有一个语义标签，而导入的图像只要一个语义标签。因此，可以从语义标签集合中筛选出一个最符合导入的图像的语义标签，并将该语义标签作为待识别语义标签。然后，可以从该待识别语义标签中的与导入的图像对应的名词的解释信息作为描述信息。例如，待识别语义标签是：“这是百合花”。则“百合花”就是与导入的图像对应的名词。通过本地或网络查询可以得到“百合花”的解释信息，可以将该解释信息作为导入的图像的描述信息。

在本实施例的一些可选的实现方式中，上述从上述语义标签集合中筛选出一个待识别语义标签可以包括：统计上述语义标签集合中相同的语义标签的数量，将数量最多的语义标签作为待识别语义标签。

向图像查找模型导入一张图像可以得到至少一个待匹配图像，每个待匹配图像都有一个语义标签。待匹配图像之间可以彼此不同，但得到的语义标签可以相同。例如，待匹配图像可以是从不同角度对同一植物拍摄得到的，对应得到的多个语义标签可以是相同的。而相同的语义标签的数量越多，说明导入的图像在多个拍摄角度都与某一被拍摄对象相同的。因此，可以统计上述语义标签集合中相同的语义标签的数量，将数量最多的语义标签作为待识别语义标签。

步骤203，通过上述描述信息构建上述待处理信息的应答信息。

得到描述信息后，可以通过描述信息构建应答信息。例如，上述的描述信息可以是：“XXX(植物名称)，学名XX，百合科百合属，多年生草本植物，原产中国···”，应答信息可以是：“图中是XXX(植物名称)，更详细的信息可以参考：https://xxx.xxx.com/item/％E7％99％B％88/7886？fr＝aladdin&fromid＝7780&fromtitle＝％E7％99％BE％E5％90％88％E8％8A％B1”，之后，可以将应答信息发送到终端设备101、102、103上，实现与终端设备101、102、103上待处理信息的信息交互。

在本实施例的一些可选的实现方式中，上述方法还包括：对上述描述信息进行修正的步骤，上述对上述描述信息进行修正的步骤可以包括：

第一步，接收对应上述应答信息的反馈信息，上述反馈信息用于评价上述应答信息的准确性。

应答信息返回到终端设备101、102、103上后，其他用户可以对应答信息做出是否准确或正确的评价。例如，评价可以是：“对，就是XXX，我们家也有”、“不对吧，应该是XXX”、“可能是YYY吧，不像XXX”等。用户的这些评价就可以认为是对应答信息的反馈信息。

第二步，对上述反馈信息进行语义识别，得到准确率信息。

不同的反馈信息表示的准确率可以不同。例如，“对，就是XXX，我们家也有”的语义识别结果可以是：“应答信息正确”；“不对吧，应该是XXX”的语义识别结果可以是：“应答信息错误”；“可能是YYY吧，不像XXX”的语义识别结果可以是：“应答信息不定”。相应的，可以设置上述的“对，就是XXX，我们家也有”的准确率可以是100％；“不对吧，应该是XXX”的准确率可以是0％；“可能是YYY吧，不像XXX”的准确率可以是50％。统计一段时间内全部的准确率，可以得到应答信息的准确率信息。例如，准确率是100％有8个，准确率是0％有1个，准确率是50％有1个，则准确率信息可以是：(8*100％+1*0％+1*50％)/10＝85％。

第三步，在上述准确率信息低于设定阈值时，从上述语义标签集合中除待识别语义标签以外的语义标签中选择二次待识别标签。

准确率信息可以反应应答信息的正确性，当准确率信息高于设定阈值时，可以认为应答信息正确。例如，10条反馈信息中有8条认为应答信息正确，则可以直接认为应答信息是100％正确的。当准确率信息低于某一设定阈值(例如69％)时，可以认为应答信息不正确。这时，可以从语义标签集合中除与应答信息对应的待识别语义标签以外的语义标签中选择其他的语义标签作为二次待识别标签。

第四步，将二次待识别标签中的名词的解释信息作为二次描述信息。

与上述过程类似，可以将二次待识别标签中的名词的解释信息作为二次描述信息。

第五步，通过二次描述信息构建上述待处理信息的应答信息。

通过二次描述信息可以重新构建应答信息，之后，再将应答信息发送到终端设备101、102、103上。

需要说明的是，如果通过二次描述信息得到的应答信息对应的反馈信息的准确率信息还是低于设定阈值，则还可以继续选出其他的待识别标签得到应答信息，直至对应的准确率信息高于设定阈值。

当确定了应答信息正确后，可以将待处理信息中的图像和应答信息建立对应关系，并保存到数据库中，以便后续对图像和应答信息的查询。

继续参见图3，图3是根据本实施例的用于信息交互的方法的应用场景的一个示意图。在图3的应用场景中，用户通过终端设备102在植物吧中发了信息：“刚才在附近考到的，挺漂亮，不知道是什么，有人知道么？”，并增加了对应的图像。服务器105获取到用户发送的内容，将给内容作为待处理信息。然后，服务器105从文字信息中提取到特征词“是什么”；之后，服务器105获取到该图像对应的描述信息，通过描述信息构建应答信息，并发送给终端设备102。

本申请的上述实施例提供的方法能够提取待处理信息的文字信息的特征词，并得到待处理信息的图像的描述信息，建立了待处理信息中文字信息与图像的对应关系；之后，通过描述信息构建应答信息，实现了与待处理信息之间的信息交互。

进一步参考图4，作为对上述各图所示方法的实现，本申请提供了一种用于信息交互的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例的用于信息交互的装置400可以包括：待处理信息获取单元401、描述信息获取单元402和应答信息构建单元403。其中，待处理信息获取单元401用于获取待处理信息，上述待处理信息包括文字信息和图像；描述信息获取单元402用于提取上述待处理信息的文字信息的特征词，基于上述特征词查找上述待处理信息的图像的描述信息，其中，上述特征词用于表征对上述图像的查找请求，上述描述信息用于表征对上述图像的文字描述；应答信息构建单元403用于通过上述描述信息构建上述待处理信息的应答信息。

在本实施例的一些可选的实现方式中，上述描述信息获取单元 402可以包括：语义识别子单元(图中未示出)和特征词提取子单元(图中未示出)。其中，语义识别子单元用于对文字信息进行语义识别，得到对应上述文字信息的语义信息；特征词提取子单元用于从上述语义信息中提取特征词。

在本实施例的一些可选的实现方式中，上述描述信息获取单元402可以包括：待匹配图像获取子单元(图中未示出)、语义标签获取子单元(图中未示出)和描述信息获取子单元(图中未示出)。其中，待匹配图像获取子单元用于将图像导入图像查找模型，得到与上述图像对应的待匹配图像集合，上述待匹配图像集合包括至少一张待匹配图像，上述图像查找模型用于表征图像与待匹配图像之间的第一对应关系；语义标签获取子单元用于将待匹配图像导入语义标签模型，得到对应待匹配图像集合的语义标签集合，上述语义标签模型用于表征待匹配图像与语义标签的第二对应关系，语义标签用于对待匹配图像进行文字说明；描述信息获取子单元用于从上述语义标签集合中筛选出一个待识别语义标签，将待识别语义标签中的与上述图像对应的名词的解释信息作为描述信息。

在本实施例的一些可选的实现方式中，上述描述信息获取子单元可以包括：统计上述语义标签集合中相同的语义标签的数量，将数量最多的语义标签作为待识别语义标签。

在本实施例的一些可选的实现方式中，上述用于信息交互的装置400还可以包括：修正单元(图中未示出)，用于对上述描述信息进行修正，上述修正单元可以包括：反馈信息接收子单元、准确率信息获取子单元、二次待识别标签获取子单元、二次描述信息获取子单元和二次应答信息构建子单元。其中，反馈信息接收子单元用于接收对应上述应答信息的反馈信息，上述反馈信息用于评价上述应答信息的准确性；准确率信息获取子单元用于对上述反馈信息进行语义识别，得到准确率信息；二次待识别标签获取子单元用于在上述准确率信息低于设定阈值时，从上述语义标签集合中除待识别语义标签以外的语义标签中选择二次待识别标签；二次描述信息获取子单元用于将二次待识别标签中的与上述图像对应的名词的解释信息作为二次描述信息；二次应答信息构建子单元用于通过二次描述信息构建上述待处理信息的应答信息。

本实施例还提供了一种服务器，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器执行上述的用于信息交互的方法。

本实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的用于信息交互的方法。

下面参考图5，其示出了适于用来实现本申请实施例的服务器的计算机系统500的结构示意图。图5示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括待处理信息获取单元、描述信息获取单元和应答信息构建单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，应答信息构建单元还可以被描述为“用于构建应答信息的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取待处理信息，上述待处理信息包括文字信息和图像；提取上述待处理信息的文字信息的特征词，基于上述特征词查找上述待处理信息的图像的描述信息，其中，上述特征词用于表征对上述图像的查找请求，上述描述信息用于表征对上述图像的文字描述；通过上述描述信息构建上述待处理信息的应答信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

一种用于信息交互的方法，其特征在于，所述方法包括：

获取待处理信息，所述待处理信息包括文字信息和图像；

提取所述待处理信息的文字信息的特征词，基于所述特征词查找所述待处理信息的图像的描述信息，其中，所述特征词用于表征对所述图像的查找请求，所述描述信息用于表征对所述图像的文字描述；

通过所述描述信息构建所述待处理信息的应答信息。
根据权利要求1所述的方法，其特征在于，所述提取所述待处理信息的文字信息的特征词包括：

对文字信息进行语义识别，得到对应所述文字信息的语义信息；

从所述语义信息中提取特征词。
根据权利要求1所述的方法，其特征在于，所述基于所述特征词查找所述待处理信息的图像的描述信息包括：

将图像导入图像查找模型，得到与所述图像对应的待匹配图像集合，所述待匹配图像集合包括至少一张待匹配图像，所述图像查找模型用于表征图像与待匹配图像之间的第一对应关系；

将待匹配图像导入语义标签模型，得到对应待匹配图像集合的语义标签集合，所述语义标签模型用于表征待匹配图像与语义标签的第二对应关系，语义标签用于对待匹配图像进行文字说明；

从所述语义标签集合中筛选出一个待识别语义标签，将待识别语义标签中的与所述图像对应的名词的解释信息作为描述信息。
根据权利要求3所述的方法，其特征在于，所述从所述语义标签集合中筛选出一个待识别语义标签包括：

统计所述语义标签集合中相同的语义标签的数量，将数量最多的语义标签作为待识别语义标签。
根据权利要求4所述的方法，其特征在于，所述方法还包括：对所述描述信息进行修正的步骤，所述对所述描述信息进行修正的步骤包括：

接收对应所述应答信息的反馈信息，所述反馈信息用于评价所述应答信息的准确性；

对所述反馈信息进行语义识别，得到准确率信息；

在所述准确率信息低于设定阈值时，从所述语义标签集合中除待识别语义标签以外的语义标签中选择二次待识别标签；

将二次待识别标签中的与所述图像对应的名词的解释信息作为二次描述信息；

通过二次描述信息构建所述待处理信息的应答信息。
一种用于信息交互的装置，其特征在于，所述装置包括：

待处理信息获取单元，用于获取待处理信息，所述待处理信息包括文字信息和图像；

描述信息获取单元，用于提取所述待处理信息的文字信息的特征词，基于所述特征词查找所述待处理信息的图像的描述信息，其中，所述特征词用于表征对所述图像的查找请求，所述描述信息用于表征对所述图像的文字描述；

应答信息构建单元，用于通过所述描述信息构建所述待处理信息的应答信息。
根据权利要求6所述的装置，其特征在于，所述描述信息获取单元包括：

语义识别子单元，用于对文字信息进行语义识别，得到对应所述文字信息的语义信息；

特征词提取子单元，用于从所述语义信息中提取特征词。
根据权利要求6所述的装置，其特征在于，所述描述信息获取单元包括：

待匹配图像获取子单元，用于将图像导入图像查找模型，得到与所述图像对应的待匹配图像集合，所述待匹配图像集合包括至少一张待匹配图像，所述图像查找模型用于表征图像与待匹配图像之间的第一对应关系；

语义标签获取子单元，用于将待匹配图像导入语义标签模型，得到对应待匹配图像集合的语义标签集合，所述语义标签模型用于表征待匹配图像与语义标签的第二对应关系，语义标签用于对待匹配图像进行文字说明；

描述信息获取子单元，用于从所述语义标签集合中筛选出一个待识别语义标签，将待识别语义标签中的与所述图像对应的名词的解释信息作为描述信息。
根据权利要求8所述的装置，其特征在于，所述描述信息获取子单元包括：

统计所述语义标签集合中相同的语义标签的数量，将数量最多的语义标签作为待识别语义标签。
根据权利要求9所述的装置，其特征在于，所述装置还包括：修正单元，用于对所述描述信息进行修正，所述修正单元包括：

反馈信息接收子单元，用于接收对应所述应答信息的反馈信息，所述反馈信息用于评价所述应答信息的准确性；

准确率信息获取子单元，用于对所述反馈信息进行语义识别，得到准确率信息；

二次待识别标签获取子单元，用于在所述准确率信息低于设定阈值时，从所述语义标签集合中除待识别语义标签以外的语义标签中选择二次待识别标签；

二次描述信息获取子单元，用于将二次待识别标签中的与所述图像对应的名词的解释信息作为二次描述信息；

二次应答信息构建子单元，用于通过二次描述信息构建所述待处理信息的应答信息。
一种服务器，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行权利要求1至5任一所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5任一所述的方法。