CN112802477A - 一种基于语音文字转换的客服助理工具服务方法及系统 - Google Patents

一种基于语音文字转换的客服助理工具服务方法及系统 Download PDF

Info

Publication number
CN112802477A
CN112802477A CN202011612549.8A CN202011612549A CN112802477A CN 112802477 A CN112802477 A CN 112802477A CN 202011612549 A CN202011612549 A CN 202011612549A CN 112802477 A CN112802477 A CN 112802477A
Authority
CN
China
Prior art keywords
voice
assistant
client
service
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011612549.8A
Other languages
English (en)
Inventor
张德昌
丁常坤
夏兵
王江淮
时代红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kedaduochuang Cloud Technology Co ltd
Original Assignee
Kedaduochuang Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kedaduochuang Cloud Technology Co ltd filed Critical Kedaduochuang Cloud Technology Co ltd
Priority to CN202011612549.8A priority Critical patent/CN112802477A/zh
Publication of CN112802477A publication Critical patent/CN112802477A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于语音文字转换的客服助理工具服务方法及系统,属于客服服务技术领域,包括以下步骤:S1:调起客户端;S2:语音采集;S3:语音发送;S4:语音转换处理;S5:语音识别;S6:识别结果返回;S7:识别结果展示;S8:停止展示。本发明通过设置助理服务端,通过助理服务端接收语音并返回识别结果,可以在助理服务端录音及保存整通电话的识别结果,便于质检等其他业务;通过接口调用ASR服务,可以更换服务提供商;客服人员可以随时复制聊天文字,或者翻看前面的聊天记录。

Description

一种基于语音文字转换的客服助理工具服务方法及系统
技术领域
本发明涉及客服服务技术领域,具体涉及一种基于语音文字转换的客服助理工具服务方法及系统。
背景技术
语音客服人员在接听客户电话的过程中,经常会需要记录或向用户确认一些信息。在信息量较大时,如果没有其他辅助手段或工具而全凭记忆力,一方面会加重客服人员负担,另一方面会导致由于信息不准确而需要重复向客户询问与确认。
客服人员在通话中有时需要将客户所说内容录入CRM系统等相关系统中去,如果全部手动打字录入,会占用更多通话时间,或导致分心,工作效率不够高。因此,提出一种基于语音文字转换的客服助理工具服务方法。
发明内容
本发明所要解决的技术问题在于:如何在客服人员使用的电脑上展示客服人员与客户双方通话的内容,供客服人员参考及复制使用,提供了一种基于语音文字转换的客服助理工具服务方法。
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:调起客户端
当客服人员通过前台系统接听到来电,调起助理客户端,开始与客户交流;
S2:语音采集
助理客户端启动后开始进行音频采集,包括客服人员的声音与客户的声音;
S3:语音发送
助理客户端将采集到的两路语音通过websocket接口实时发送到助理服务端;
S4:语音转换处理
利用助理服务端或助理客户端对采集到的语音进行相应转换处理,以适应ASR(自动语音识别技术)厂商的websocket接口需要;
S5:语音识别
助理服务端将处理后的音频数据通过websocket接口发送到ASR服务提供方进行识别,并实时接收返回结果;
S6:识别结果返回
助理服务端将识别结果通过websocket接口返回给助理客户端;
S7:识别结果展示
将助理客户端展示界面通过独立窗口进行展示;
S8:停止展示
通话结束后,助理客户端停止采集音频数据。
更进一步地,在所述步骤S1中,客服人员接听来话事件触发时,前台系统通过JavaScript调起助理客户端,并传递当前通话信息。
更进一步地,在所述步骤S2中,助理客户端调用windows提供的COM组件,使用CoreAudio进行对音频数据进行采集,其中采集客户语音使用loopback模式,采集客服人员语音使用capture模式。
更进一步地,在所述步骤S4中,ASR服务websocket接口需要8000hz、单声道、位宽16bit的PCM音频数据,需要对采集到的音频数据进行转码,将音频数据转换成ASR服务websocket接口所需格式。
更进一步地,当接听来电事件触发,所述助理客户端启动之后,首先连接所述助理服务端并发送文本信息,所述助理服务端接收到该文本信息之后启动一个websocket连接,连接到ASR服务,并创建相关数据结构,将两个通道关联起来。
更进一步地,当通话结束事件触发,所述助理客户端发送结束标志给所述助理服务端,所述助理服务端则断开与ASR服务的websocket连接,并清理相关资源。
本发明还提供了一种基于语音文字转换的客服助理工具服务系统,利用上述的服务方法对客户进行服务,包括:
客户端调起模块,用于通过前台系统接听到来电,调起助理客户端,开始与客户交流;
语音采集模块,用于在助理客户端启动后进行音频采集,包括客服人员的声音与客户的声音;
语音发送模块,用于通过助理客户端将采集到的两路语音通过websocket接口实时发送到助理服务端;
语音转换处理模块,用于利用助理服务端或助理客户端对采集到的语音进行相应转换处理,以适应ASR厂商的websocket接口需要;
语音识别模块,用于通过ASR服务提供方对处理后的音频数据进行识别,并实时接收返回结果;
识别结果返回模块,用于利用助理服务端将识别结果通过websocket接口返回给助理客户端;
结果展示模块,用于将助理客户端展示界面通过独立窗口进行展示;
展示停止模块,用于在通话结束后,停止采集音频数据;
中央处理模块,用于向其他模块发出指令,完成相关动作;
所述客户端调起模块、语音采集模块、语音发送模块、语音转换处理模块、语音识别模块、识别结果返回模块、结果展示模块、展示停止模块均与中央处理模块电连接。
本发明相比现有技术具有以下优点:该基于语音文字转换的客服助理工具服务方法,通过设置助理服务端,通过助理服务端接收语音并返回识别结果,可以在助理服务端录音及保存整通电话的识别结果,便于质检等其他业务;通过接口调用ASR服务,可以更换服务提供商;客服人员可以随时复制聊天文字,或者翻看前面的聊天记录,值得被推广使用。
附图说明
图1是本发明实施例二中助理客户端与助理服务端的交互流程示意图;
图2是本发明实施例二中独立窗口界面的示例图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例一
本实施例提供一种技术方案:一种基于语音文字转换的客服助理工具服务方法,包括以下步骤:
S1:调起客户端
当客服人员通过前台系统接听到来电,调起助理客户端,开始与客户交流;
S2:语音采集
助理客户端启动后开始进行音频采集,包括客服人员的声音与客户的声音;
S3:语音发送
助理客户端将采集到的两路语音通过websocket接口实时发送到助理服务端;
S4:语音转换处理
利用助理服务端或助理客户端对采集到的语音进行相应转换处理,以适应ASR(自动语音识别技术)厂商的websocket接口需要;
S5:语音识别
助理服务端将处理后的音频数据通过websocket接口发送到ASR服务提供方进行识别,并实时接收返回结果;
S6:识别结果返回
助理服务端将识别结果通过websocket接口返回给助理客户端;
S7:识别结果展示
将助理客户端展示界面通过独立窗口进行展示;
S8:停止展示
通话结束后,助理客户端停止采集音频数据。
在所述步骤S1中,客服人员接听来话事件触发时,前台系统通过JavaScript调起助理客户端,并传递当前通话信息。
在所述步骤S2中,助理客户端调用windows提供的COM组件,使用Core Audio进行对音频数据进行采集,其中采集客户语音使用loopback模式,采集客服人员语音使用capture模式。
在所述步骤S4中,ASR服务websocket接口需要8000hz、单声道、位宽16bit的PCM音频数据,需要对采集到的音频数据进行转码,将音频数据转换成ASR服务websocket接口所需格式。
当接听来电事件触发,所述助理客户端启动之后,首先连接所述助理服务端并发送文本信息,所述助理服务端接收到该文本信息之后启动一个websocket连接,连接到ASR服务,并创建相关数据结构,将两个通道关联起来。
当通话结束事件触发,所述助理客户端发送结束标志给所述助理服务端,所述助理服务端则断开与ASR服务的websocket连接,并清理相关资源。
本实施例还提供了一种基于语音文字转换的客服助理工具服务系统,利用上述的服务方法对客户进行服务,包括:
客户端调起模块,用于通过前台系统接听到来电,调起助理客户端,开始与客户交流;
语音采集模块,用于在助理客户端启动后进行音频采集,包括客服人员的声音与客户的声音;
语音发送模块,用于通过助理客户端将采集到的两路语音通过websocket接口实时发送到助理服务端;
语音转换处理模块,用于利用助理服务端或助理客户端对采集到的语音进行相应转换处理,以适应ASR厂商的websocket接口需要;
语音识别模块,用于通过ASR服务提供方对处理后的音频数据进行识别,并实时接收返回结果;
识别结果返回模块,用于利用助理服务端将识别结果通过websocket接口返回给助理客户端;
结果展示模块,用于将助理客户端展示界面通过独立窗口进行展示;
展示停止模块,用于在通话结束后,停止采集音频数据;
中央处理模块,用于向其他模块发出指令,完成相关动作;
所述客户端调起模块、语音采集模块、语音发送模块、语音转换处理模块、语音识别模块、识别结果返回模块、结果展示模块、展示停止模块均与中央处理模块电连接。
实施例二
本发明的目的是将话务双方的语音转换为文字展示于客服系统中,主要涉及麦克风与声卡语音采集、音频转换、语音识别服务等技术。实际系统应该包括安装于客服人员电脑中的助理客户端和部署于服务器的助理服务端,以及第三方厂商提供的语音识别(ASR)的websocket接口。
如图1所示,本实施例的主要流程步骤如下:
S1:调起客户端
当客服人员通过前台系统(如使用浏览器)接听到来电,调起助理客户端,开始与客户交流;
S2:语音采集
助理客户端一旦启动就开始进行语音的捕获,包括从麦克风输入到计算机的客服人员的声音和从计算机声卡输出到耳机的客户的声音;
S3:语音发送
客户端将采集到的两路语音通过websocket接口实时发送到助理服务端;
S4:语音转换处理
助理服务端负责对语音进行相应转换处理,以适应ASR厂商的websocket接口需要;
如常见的百度ASR服务接口要求传送频率为8000hz、单声道、位宽16bit的PCM音频数据,而助理客户端传来的音频数据一般不能完全符合这个要求,所以助理服务端需要对此数据转换为完全符合接口要求的格式。音频格式转换完成之后,才能按照一定的频率发送到ASR接口;
S5:语音识别
助理服务端将处理后的音频数据通过websocket接口发送到ASR服务提供方,并实时接收返回结果;
常规的语音识别方式为语音文件转写,而客服助理是需要实时语音识别,这里需要ASR服务能提供实时语音识别,实时语音识别接口一般以websocket接口的方式提供,助理服务端会以一定的频率发送音频数据帧,ASR服务端则实时返回临时识别结果和最终识别结果;
S6:识别结果返回
助理服务端将识别结果通过websocket接口返回给助理客户端;
S7:识别结果展示
助理客户端展示界面可以以独立窗口存在,展示形式可以如图2所示;
助理客户端是一个需要安装在客服电脑上的程序,该程序单独运行,并且可以提供展示界面。
S8:停止展示
通话结束后,助理客户端将停止采集数据。
本实施例的具体实现原理如下:
客户端调起:客服人员接听来话事件触发时,助理客户端安装时会自动注册到注册表,浏览器前端可以通过JavaScript调起助理客户端,助理客户端启动后自动连接到助理服务端,并传递当前通话信息。。
音频采集:助理客户端调用windows提供的COM组件,使用Core Audio进行捕获。其中捕获客户语音使用loopback模式,捕获麦克风录入语音使用capture模式。
音频转码:由于ASR服务websocket接口一般需要8000hz、单声道、位宽16bit的PCM数据,而捕获到的数据编码往往与当前计算机的具体硬件有关,如常见的48000hz、双声道,所以需要转码。转码功能可以在助理客户端实现,也可以在助理服务端实现。音频转码是通过调用FFmpeg实现的,如果出于节省网络流量考虑使用助理客户端转码,则在助理客户端内部集成FFmpeg即可;如果由助理服务端实现转码,则由助理服务端集成FFmpeg,使用FFmpeg是由于这套工具编解码效率高。
助理客户端与助理服务端的交互:助理客户端与助理服务端之间的交互也使用websocket。当接听来电事件触发,助理客户端启动之后,首先连接助理服务端并发送文本信息,其中包含当前电脑系统采集音频的采样率、采样位数、声道数等信息。助理服务端接收到该文本信息之后启动一个websocket连接,连接到ASR服务,并创建相关数据结构,将两个通道关联起来。此数据结构包含音频数据缓冲区、与助理客户端的websocket连接通道、与ASR服务的websocket连接通道。其中音频数据缓冲区是用于存储助理客户端发送过来并经过转码之后的音频数据,助理服务端向ASR服务接口发送音频数据也是从这个缓冲区取数据,使用这个缓冲区是由于助理客户端发送数据的频率与助理服务端向ASR服务接口发送数据的频率不匹配。此后,助理客户端将以一定时间间隔不断发送音频数据,而助理服务端则将ASR服务返回的识别结果以文本发送到助理客户端。当通话结束事件触发,助理客户端发送结束标志给助理服务端,助理服务端则断开与ASR服务的websocket连接,并清理相关资源。
综上所述,上述实施例的基于语音文字转换的客服助理工具服务方法,通过设置助理服务端,通过助理服务端接收语音并返回识别结果,可以在助理服务端录音及保存整通电话的识别结果,便于质检等其他业务;通过接口调用ASR服务,可以更换服务提供商;客服人员可以随时复制聊天文字,或者翻看前面的聊天记录,值得被推广使用。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种基于语音文字转换的客服助理工具服务方法,其特征在于,包括以下步骤:
S1:调起客户端
当客服人员通过前台系统接听到来电,调起助理客户端,开始与客户交流;
S2:语音采集
助理客户端启动后开始进行音频采集,包括客服人员的声音与客户的声音;
S3:语音发送
助理客户端将采集到的两路语音通过websocket接口实时发送到助理服务端;
S4:语音转换处理
利用助理服务端或助理客户端对采集到的语音进行相应转换处理,以适应ASR服务厂商的websocket接口需要;
S5:语音识别
助理服务端将处理后的音频数据通过websocket接口发送到ASR服务提供方进行识别,并实时接收返回结果;
S6:识别结果返回
助理服务端将识别结果通过websocket接口返回给助理客户端;
S7:识别结果展示
将助理客户端展示界面通过独立窗口进行展示;
S8:停止展示
通话结束后,助理客户端停止采集音频数据。
2.根据权利要求1所述的一种基于语音文字转换的客服助理工具服务方法,其特征在于:在所述步骤S1中,客服人员接听来话事件触发时,前台系统通过JavaScript调起助理客户端,并传递当前通话信息。
3.根据权利要求2所述的一种基于语音文字转换的客服助理工具服务方法,其特征在于:在所述步骤S2中,助理客户端调用windows提供的COM组件,使用Core Audio进行对音频数据进行采集,其中采集客户语音使用loopback模式,采集客服人员语音使用capture模式。
4.根据权利要求3所述的一种基于语音文字转换的客服助理工具服务方法,其特征在于:在所述步骤S4中,ASR服务websocket接口需要8000hz、单声道、位宽16bit的PCM音频数据,需要对采集到的音频数据进行转码,将音频数据转换成ASR服务websocket接口所需格式。
5.根据权利要求4所述的一种基于语音文字转换的客服助理工具服务方法,其特征在于:当接听来电事件触发,所述助理客户端启动之后,首先连接所述助理服务端并发送文本信息,所述助理服务端接收到该文本信息之后启动一个websocket连接,连接到ASR服务,并创建相关数据结构,将两个通道关联起来。
6.根据权利要求5所述的一种基于语音文字转换的客服助理工具服务方法,其特征在于:当通话结束事件触发,所述助理客户端发送结束标志给所述助理服务端,所述助理服务端则断开与ASR服务的websocket连接,并清理相关资源。
7.一种基于语音文字转换的客服助理工具服务系统,利用如权利要求1~6任一所述的服务方法对客户进行服务,包括:
客户端调起模块,用于通过前台系统接听到来电,调起助理客户端,开始与客户交流;
语音采集模块,用于在助理客户端启动后进行音频采集,包括客服人员的声音与客户的声音;
语音发送模块,用于通过助理客户端将采集到的两路语音通过websocket接口实时发送到助理服务端;
语音转换处理模块,用于利用助理服务端或助理客户端对采集到的语音进行相应转换处理,以适应ASR厂商的websocket接口需要;
语音识别模块,用于通过ASR服务提供方对处理后的音频数据进行识别,并实时接收返回结果;
识别结果返回模块,用于利用助理服务端将识别结果通过websocket接口返回给助理客户端;
结果展示模块,用于将助理客户端展示界面通过独立窗口进行展示;
展示停止模块,用于在通话结束后,停止采集音频数据;
中央处理模块,用于向其他模块发出指令,完成相关动作;
所述客户端调起模块、语音采集模块、语音发送模块、语音转换处理模块、语音识别模块、识别结果返回模块、结果展示模块、展示停止模块均与中央处理模块电连接。
CN202011612549.8A 2020-12-30 2020-12-30 一种基于语音文字转换的客服助理工具服务方法及系统 Pending CN112802477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011612549.8A CN112802477A (zh) 2020-12-30 2020-12-30 一种基于语音文字转换的客服助理工具服务方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011612549.8A CN112802477A (zh) 2020-12-30 2020-12-30 一种基于语音文字转换的客服助理工具服务方法及系统

Publications (1)

Publication Number Publication Date
CN112802477A true CN112802477A (zh) 2021-05-14

Family

ID=75805742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011612549.8A Pending CN112802477A (zh) 2020-12-30 2020-12-30 一种基于语音文字转换的客服助理工具服务方法及系统

Country Status (1)

Country Link
CN (1) CN112802477A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131704A1 (en) * 1997-04-14 2005-06-16 At&T Corp. System and method for providing remote automatic speech recognition and text to speech services via a packet network
CN101699840A (zh) * 2009-11-09 2010-04-28 南京希华通信技术有限公司 融合通信中智能语音交互系统及其实现方法
CN110289016A (zh) * 2019-06-20 2019-09-27 深圳追一科技有限公司 一种基于实时对话的语音质检方法、装置及电子设备
CN110648665A (zh) * 2019-09-09 2020-01-03 北京左医科技有限公司 一种会话过程记录系统及方法
CN110784591A (zh) * 2019-09-25 2020-02-11 福建新大陆软件工程有限公司 智能语音自动化探测方法、装置及系统
CN111106996A (zh) * 2019-12-28 2020-05-05 安徽微沃信息科技股份有限公司 一种基于WebSocket和缓存的多终端在线聊天系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050131704A1 (en) * 1997-04-14 2005-06-16 At&T Corp. System and method for providing remote automatic speech recognition and text to speech services via a packet network
CN101699840A (zh) * 2009-11-09 2010-04-28 南京希华通信技术有限公司 融合通信中智能语音交互系统及其实现方法
CN110289016A (zh) * 2019-06-20 2019-09-27 深圳追一科技有限公司 一种基于实时对话的语音质检方法、装置及电子设备
CN110648665A (zh) * 2019-09-09 2020-01-03 北京左医科技有限公司 一种会话过程记录系统及方法
CN110784591A (zh) * 2019-09-25 2020-02-11 福建新大陆软件工程有限公司 智能语音自动化探测方法、装置及系统
CN111106996A (zh) * 2019-12-28 2020-05-05 安徽微沃信息科技股份有限公司 一种基于WebSocket和缓存的多终端在线聊天系统

Similar Documents

Publication Publication Date Title
US9942400B2 (en) System and methods for analyzing multichannel communications including voice data
US9699307B2 (en) Method and system for automatically routing a telephonic communication
US7433818B2 (en) Subscriber terminal for providing speech-text encoding and telephony service
JP5532598B2 (ja) オペレータ管理システム、その方法、及びプログラム
US6490550B1 (en) System and method for IP-based communication transmitting speech and speech-generated text
JP2011087005A (ja) 通話音声要約生成システム、その方法及び通話音声要約生成プログラム
US12132855B2 (en) Presentation of communications
US9917939B1 (en) Automatically delaying playback of a voice message at a captioning device
CN101277338A (zh) 一种记录通信终端下行语音信号的方法及该通信终端
CN111263016A (zh) 通讯辅助方法、装置、计算机设备和计算机可读存储介质
CN111768786B (zh) 聋哑人通话智能终端平台及其通话方法
JP2019153099A (ja) 会議支援システム及び会議支援プログラム
JPH07226931A (ja) マルチメディア会議装置
CN103067579A (zh) 辅助在线语音聊天方法和装置
CN112802477A (zh) 一种基于语音文字转换的客服助理工具服务方法及系统
US10356246B2 (en) Method and communications arrangement for operating a communications connection
JP2004173124A (ja) 顧客データの管理方法
EP1889257B1 (en) A method and system for recording an electronic communication and extracting constituent audio data therefrom
JP2000004304A (ja) 異なる手段での会話が可能な通話装置
US20080262844A1 (en) Method and system for analyzing separated voice data of a telephonic communication to determine the gender of the communicant
JPH11272663A (ja) 議事録作成装置及び作成方法及び記録媒体
TWM653713U (zh) 電話機器人系統
JP2005033522A (ja) 通話内容再生装置、方法、プログラムおよび該プログラムを記録した記録媒体
JP2003069718A (ja) 聴覚障害者と健聴者間の遠隔対話補助システム
CN119110022A (zh) 一种基于大数据技术的云手机通话数据处理的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210514

RJ01 Rejection of invention patent application after publication