CN114840552B - 用户分层方法及系统 - Google Patents

用户分层方法及系统 Download PDF

Info

Publication number
CN114840552B
CN114840552B CN202210452350.6A CN202210452350A CN114840552B CN 114840552 B CN114840552 B CN 114840552B CN 202210452350 A CN202210452350 A CN 202210452350A CN 114840552 B CN114840552 B CN 114840552B
Authority
CN
China
Prior art keywords
user
data
static
dynamic
unique identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210452350.6A
Other languages
English (en)
Other versions
CN114840552A (zh
Inventor
章垚鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Fansheng Xiangqian Technology Co.,Ltd.
Original Assignee
Hangzhou Fanshengyouhang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Fanshengyouhang Technology Co ltd filed Critical Hangzhou Fanshengyouhang Technology Co ltd
Priority to CN202210452350.6A priority Critical patent/CN114840552B/zh
Publication of CN114840552A publication Critical patent/CN114840552A/zh
Application granted granted Critical
Publication of CN114840552B publication Critical patent/CN114840552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请涉及一种用户分层方法,业务人员只需要向业务终端输入业务场景数据,业务终端即可以自动进行用户分层操作,得到用户分层结果,不需要专业的数据处理人员介入,免除了与数据处理人员沟通的过程。此外,本方法将用户静态数据和用户动态数据进行了统一化、标准化处理,降低了由于数据底层处理逻辑不一致所带来的结果误差。

Description

用户分层方法及系统
技术领域
本申请涉及互联网数据处理技术领域,特别是涉及一种用户分层方法及系统。
背景技术
用户分层方法是指在具体业务场景下对用户进行筛选,过滤出符合业务场景需求的目标用户群体的过程。在此过程中需要使用到用户数据,所需使用的用户数据主要包括用户的静态数据以及动态数据。用户的静态数据通常指用户本身的属性特征,如性别、年龄、工作性质等。用户的动态数据通常为用户的行为特征,如浏览网页、购买商品等,属于一种动态生成的数据形式。
当业务人员依据业务场景提出用户分层请求时,传统的用户分层方法,数据处理人员一般的处理方式是通过人工查看的方式过滤出所需要的用户群体。
然而,这种用户分层方法会造成用户分层结果不准确的问题。这是由于业务信息不对称导致的,业务人员和数据处理人员的工作性质不同,他们之间的沟通成本较高,在沟通过程中业务场景需求往往被曲解,导致用户分层结果与业务场景需求不匹配,不能满足业务场景需求。此外,用户的静态、动态数据分布在诸多数据库表中,不同数据处理人员的技术水平不同,他们对数据库表的理解存在差异,得到的用户分层结果不同,造成准确度参差不齐。
发明内容
基于此,有必要针对传统用户分层方法是通过人工查看的方式过滤出所需要的用户群体,从而导致用户分层结果不准确的问题,提供一种用户分层方法及系统。
本申请提供一种用户分层方法,应用于业务终端,所述用户分层方法包括:
每隔预设时间段获取一次所有用户的用户数据;
将每一个用户的用户数据进行清洗,得到标准化格式的用户静态数据和用户动态数据;所述用户静态数据包括用户设备唯一标识与静态数据字段之间的耦合关系,所述用户动态数据包括用户设备唯一标识与用户行为数据之间的耦合关系;
将每一个用户的标准化格式的用户静态数据和用户动态数据存储入服务器中;
当接收到用户分层请求时,读取业务场景数据,将业务场景数据输入分层模型;
运行所述分层模型,输出与业务场景数据匹配的用户设备唯一标识;
将与业务场景数据匹配的用户设备唯一标识输出,返回所述每隔预设时间段获取一次用户数据。
进一步地,所述每隔预设时间段向服务器获取一次所有用户的用户数据,包括:
每隔预设时间段向服务器获取所有用户的业务结果数据;所述业务结果数据包括用户商品购买记录、用户登记表单填写记录和用户投诉记录中的一种或多种;
在本地的存储器中提取所有用户的用户行为数据;
通过第三方通信接口获取所有用户的第三方业务数据,所述第三方业务数据包括用户在第三方平台下的账号数据、用户在第三方平台下的客服沟通文字数据、以及用户在第三方平台下的客服沟通语音数据中的一种或多种。
进一步地,所述将每一个用户的用户数据进行清洗,得到标准化格式的用户静态数据和用户动态数据,包括:
选取一个用户的用户数据,并读取用户数据中的用户设备唯一标识;
将用户数据中的string格式字段取出,作为枚举型静态数据;
将用户数据中的int格式字段取出,作为数值型静态数据;
将用户数据中的timestamp字段取出,作为时间型静态数据;
创建用户静态数据表,将与每一个用户设备唯一标识对应的枚举型静态数据、数值型静态数据和时间型静态数据,以及用户设备唯一标识相对应的置入所述用户静态数据表中;
返回所述选取一个用户的用户数据,并读取用户数据中的用户设备唯一标识,直至每一个用户的用户数据均清洗完毕。
进一步地,在返回所述选取一个用户的用户数据,并读取用户数据中的用户设备唯一标识,直至每一个用户的用户数据均清洗完毕之前,所述将每一个用户的用户数据进行清洗,得到标准化格式的用户静态数据和用户动态数据,还包括:
选取一个用户的用户数据,并读取用户数据中的用户设备唯一标识;
提取用户数据中的至少一条用户行为数据;
选取一条用户行为数据;
将该条用户行为数据转化为行为事件ID和与行为事件ID关联的多个行为事件参数;
返回所述选取一条用户行为数据,直至每一条用户行为数据均转化完毕;
返回所述选取一个用户的用户数据,直至每一个用户的用户数据中的所有用户行为数据均转化完毕;
建立用户动态数据表,将与每一个用户设备唯一标识对应的行为事件ID、以及与行为事件ID关联的多个行为事件参数和用户设备唯一标识相对应的置入所述用户动态数据表中。
进一步地,所述行为事件参数包括枚举型行为事件参数、数值型行为事件参数和时间型行为事件参数中的一种或多种。
进一步地,所述运行分层模型,输出与业务场景数据匹配的用户设备唯一标识,包括:
运行分层模型,控制分层模型中的条件提取模块提取业务场景数据中的至少一个静态筛选条件字段、至少一个静态介词配置项、至少一个静态内容字段、至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段和逻辑介词配置项;
控制分层模型中的语法解析模块将至少一个静态筛选条件字段、至少一个静态介词配置项、至少一个静态内容字段、至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段和逻辑介词配置项合并且转化为一条SQL查询语句;
将SQL查询语句与服务器中所有用户的标准化格式的用户静态数据和用户动态数据分别进行匹配,得到命中所述SQL查询语句的用户设备唯一标识;
将命中所述SQL查询语句的用户设备唯一标识作为与业务场景数据匹配的用户设备唯一标识。
进一步地,所述静态介词配置项包括大于、小于和等于中的一种或多种;所述动态介词配置项包括大于、小于和等于中的一种或多种;所述逻辑介词配置项包括且、或中的一种。
进一步地,所控制分层模型中的语法解析模块将至少一个静态筛选条件字段、至少一个静态介词配置项、至少一个静态内容字段、至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段和逻辑介词配置项合并且转化为SQL查询语句,包括:
将至少一个静态筛选条件字段、、至少一个静态介词配置项、至少一个静态内容字段、至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段和逻辑介词组合拼接并生成JSON语句;
读取JSON语句中的标识符,依据JSON语句中的标识符拆分父条件和子条件;
读取JSON语句中的条件关键词,将JSON语句中的条件关键词转化为SQL关键字;
将所有SQL关键字组合拼接为SQL查询语句。
进一步地,所述将SQL查询语句与服务器中所有用户的标准化格式的用户静态数据和用户动态数据分别进行匹配,得到命中所述SQL查询语句的用户设备唯一标识,包括:
从服务器中调取用户静态数据表,将SQL查询语句与所述用户静态数据表进行匹配,得到用户静态数据表中与SQL查询语句匹配的用户设备唯一标识,将用户静态数据表中与SQL查询语句匹配的用户设备唯一标识纳入第一唯一标识集合;
从服务器中调取用户动态数据表,将SQL查询语句与所述用户动态数据表进行匹配,得到用户动态数据表中与SQL查询语句匹配的用户设备唯一标识,将用户动态数据表中与SQL查询语句匹配的用户设备唯一标识纳入第二唯一标识集合;
取第一唯一标识集合和第二唯一标识集合的交集,得到第三唯一标识集合;
将第三唯一标识集合中的所有用户设备唯一标识作为命中所述SQL查询语句的用户设备唯一标识。
本申请提供一种用户分层系统,包括:
业务终端,用于执行如前述内容提及的用户分层方法;所述业务终端包括存储器;
服务器,与所述业务终端通信连接。
本申请涉及一种用户分层方法,业务人员只需要向业务终端输入业务场景数据,业务终端即可以自动进行用户分层操作,得到用户分层结果,不需要专业的数据处理人员介入,免除了与数据处理人员沟通的过程。此外,本方法将用户静态数据和用户动态数据进行了统一化、标准化处理,降低了由于数据底层处理逻辑不一致所带来的结果误差。
附图说明
图1为本申请一实施例提供的用户分层方法的流程示意图。
图2为本申请一实施例提供的用户分层系统的结构示意图。
附图标记:
100-业务终端;110-存储器;200-服务器。
具体实施方式
为了使本申请的目的.技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种用户分层方法及系统。
一方面,本申请提供一种用户分层方法。需要说明的是,本申请提供的用户分层方法应用于业务终端。即本申请提供的用户分层方法不需要专业的数据处理人员进行操作,只需要业务人员操作即可。
此外,本申请提供的用户分层方法不限制其执行主体。可选地,本申请提供的用户分层方法的执行主体可以为一种业务终端。具体地,本申请提供的用户分层方法的执行主体可以为所述业务终端中的一个或多个处理器。
如图1所示,在本申请的一实施例中,所述用户分层方法应用于业务终端。
所述用户分层方法包括:
S100,每隔预设时间段获取一次所有用户的用户数据。
具体地,用户在用户终端执行注册账号,在应用程序上浏览信息,购物下单时这几种操作是,都会产生用户数据,服务器会及时采集这些用户数据存储于服务器中。可选地,有些用户数存储于本地存储器中,有些用户数据存储于服务器中。业务终端会定时从服务器和本地存储器中一次性的获取所有用户的用户数据。
可选地,预设时间段可以为12小时。可选地,预设时间段可以为24小时。
S200,将每一个用户的用户数据进行清洗,得到标准化格式的用户静态数据和用户动态数据。所述用户静态数据包括用户设备唯一标识与静态数据字段之间的耦合关系。所述用户动态数据包括用户设备唯一标识与用户行为数据之间的耦合关系。
具体地,用户数据的来源不同,格式也不同,本步骤可以对不同来源,不同格式的用户数据进行整合,按照预先设定的格式统一对用户数据进行清洗,主要目的是形成标准化的用户数据格式。
此外,本步骤还可以将用户静态数据和用户动态数据区分开来,便于后续处理。
S300,将每一个用户的标准化格式的用户静态数据和用户动态数据存储入服务器中。
具体地,服务器可以设立两个不同的存储区域分别存储用户静态数据和用户动态数据。
S400,当接收到用户分层请求时,读取业务场景数据,将业务场景数据输入分层模型。
具体地,S100至S300为定时清洗数据的流程,S400至S600为具体的分层流程。
可选地,当业务终端接收到用户分层请求时,业务终端会抓取用户分层请求中附带的业务场景数据,将业务场景数据输入至业务终端中的分层模型。
S500,运行所述分层模型,输出与业务场景数据匹配的用户设备唯一标识。
具体地,分层模型是一个已训练过的深度学习模型,分层模型可以自动根据业务场景数据去自动筛选与业务场景数据匹配的用户设备唯一标识输出,而不需要专业数据处理人员的介入。
S600,将与业务场景数据匹配的用户设备唯一标识输出,返回所述S100。
具体地,本方法的最终目标是筛选出满足业务场景需求的用户设备唯一标识。
本实施例中,业务人员只需要向业务终端输入业务场景数据,业务终端即可以自动进行用户分层操作,得到用户分层结果,不需要专业的数据处理人员介入,免除了与数据处理人员沟通的过程。此外,本方法将用户静态数据和用户动态数据进行了统一化、标准化处理,降低了由于数据底层处理逻辑不一致所带来的结果误差。
在本申请的一实施例中,所述S100包括:
S110,每隔预设时间段向服务器获取所有用户的业务结果数据。所述业务结果数据包括用户商品购买记录、用户登记表单填写记录和用户投诉记录中的一种或多种。
S120,在本地的存储器中提取所有用户的用户行为数据。
S130,通过第三方通信接口获取所有用户的第三方业务数据,所述第三方业务数据包括用户在第三方平台下的账号数据、用户在第三方平台下的客服沟通文字数据、以及用户在第三方平台下的客服沟通语音数据中的一种或多种。
具体地,用户数据包括三种类型的数据:业务结果数据、用户行为数据和第三方业务数据。所述业务结果数据包括用户商品购买记录、用户登记表单填写记录和用户投诉记录中的一种或多种。
用户行为数据一般是埋点数据,由业务终端采集,用户行为数据记录了用户打开页面、浏览页面等行为,例如:行为发生时间(2022-03-07 10:00:00),网页名称(XX网页),用户设备ID(可以是IMEI码,例如123456),停留时长(5秒)等。
第三方业务数据是第三方平台通过第三方通信接口提供的数据。第三方平台指的是除了用户终端和业务终端之外的平台,例如A企业开发的聊天软件平台,与业务终端签署过信息交互协议,那么用户在A企业开发的聊天软件平台下注册账号的账号数据,用户在A企业开发的聊天软件平台下与客户沟通的文字数据和语音数据都会通过第三方通信接口被和业务终端抓取到。
在本申请的一实施例中,所述S200包括:
S211,选取一个用户的用户数据,并读取用户数据中的用户设备唯一标识。
S212,将用户数据中的string格式字段取出,作为枚举型静态数据。
S213,将用户数据中的int格式字段取出,作为数值型静态数据。
S214,将用户数据中的timestamp字段取出,作为时间型静态数据。
S215,创建用户静态数据表,将与每一个用户设备唯一标识对应的枚举型静态数据、数值型静态数据和时间型静态数据,以及用户设备唯一标识相对应的置入所述用户静态数据表中。
S230,返回所述S211,直至每一个用户的用户数据均清洗完毕。
具体地,本实施例主要介绍用户静态数据的格式统一化。用户数据中的string格式字段我们定义为枚举型静态数据,此类数据表明的是用户的个人特征,很少发生变化。例如:性别为男、归属地为北京、职业类型为公务员。
用户数据中的int格式字段我们定义为数值型静态数据。此类数据表明的是用户的一些可记数的特征,会随时间发生变化。例如:年龄为26,累计消费金额为1000。
用户数据中的timestamp字段我们定义为时间型静态数据。此类数据表明的是用户在某一时间点的特征。例如生日为1979-02-04,最近一次消费时间为2020-06-07。
为了使得最终形成的标准化格式的用户静态数据包含用户设备(用户)和用户静态数据的耦合关系,在S215中,我们建立了用户静态数据表,将用户静态数据表作为标准化格式的用户静态数据。
表1-用户静态数据表(示例性的)
表1即用户静态数据表的一种实施方式,每个用户拥有一个用户唯一标识。用户唯一标识可以由业务终端进行编号,也可以采用原生的用户终端的设备唯一标识IMEI码。性别是枚举型静态数据。最近一次消费时间是时间型静态数据。年龄,累计消费金额是数值型静态数据。
每行中记录的结果是打在用户身上的静态标签。值得一提的是,由于一个用户的用户静态数据仅存在一行结果,所以用户静态数据也具备唯一性,无法做到静态数据变化过程的记录,所以枚举型静态数据只能记录最新的结果,时间型枚举型静态数据只能记录首次、最近一次的结果,数值型枚举型静态数据只能记录计数、加和结果,这在应用过程中具有一定的局限性,所以需要用户动态数据进行补充,以弥补这点不足。
在本申请的一实施例中,在S230之前,所述S200还包括:
S221,选取一个用户的用户数据,并读取用户数据中的用户设备唯一标识。
具体地,每个用户拥有一个用户唯一标识。用户唯一标识可以由业务终端进行编号,也可以采用原生的用户终端的设备唯一标识IMEI码。
S222,提取用户数据中的至少一条用户行为数据。
S223,选取一条用户行为数据。
S224,将该条用户行为数据转化为行为事件ID和与行为事件ID关联的多个行为事件参数。
S225,返回所述S223,直至每一条用户行为数据均转化完毕。
具体地,反复执行S223至S224,直至每一条用户行为数据均转化完毕。
S226,返回所述S221,直至每一个用户的用户数据中的所有用户行为数据均转化完毕。
具体地,反复执行S222至S225,,直至每一个用户的用户数据中的所有用户行为数据均转化完毕。
S227,建立用户动态数据表,将与每一个用户设备唯一标识对应的行为事件ID、以及与行为事件ID关联的多个行为事件参数和用户设备唯一标识相对应的置入所述用户动态数据表中。
具体地,为了使得最终形成的标准化格式的用户动态数据包含用户设备(用户)和用户动态数据的耦合关系,我们建立了用户动态数据表,将用户动态数据表作为标准化格式的用户动态数据。
表2-用户动态数据表(示例性的)
表2即用户动态数据表的一种实施方式。
如表2所示,表格中的每一行为一个用户的一条用户行为数据。行为事件ID有K001和K002,K001代表购买商品这个行为事件,K002代表浏览页面这个行为事件。
在本申请的一实施例中,所述行为事件参数包括枚举型行为事件参数、数值型行为事件参数和时间型行为事件参数中的一种或多种。
具体地,用户行为数据也有不同类型,通过不同类型的行为事件参数表示。行为事件参数是对行为事件进一步的具体描述。
如表2所示,表2中的枚举型行为事件参数代表的是购买商品的价格。表2中的时间型行为事件参数代表的是用户行为事件发生的时间。表2中的数值型行为事件参数在K001这个行为事件中代表的是购买商品的数量,在K002这个行为事件中代表的是用户浏览页面的ID(即Page_1和Page_2)。
由于浏览页面并不会产生购买商品的价格,因此其枚举型行为事件参数用“-”表示。
在本申请的一实施例中,S500包括:
S510,运行分层模型,控制分层模型中的条件提取模块提取业务场景数据中的至少一个静态筛选条件字段、至少一个静态介词配置项、至少一个静态内容字段、至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段和逻辑介词配置项。
S520,控制分层模型中的语法解析模块将至少一个静态筛选条件字段、至少一个静态介词配置项、至少一个静态内容字段、至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段和逻辑介词配置项合并且转化为一条SQL查询语句。
S530,将SQL查询语句与服务器中所有用户的标准化格式的用户静态数据和用户动态数据分别进行匹配,得到命中所述SQL查询语句的用户设备唯一标识。
S540,将命中所述SQL查询语句的用户设备唯一标识作为与业务场景数据匹配的用户设备唯一标识。
具体地,业务场景数据中包括业务场景需求信息,业务终端可以从中提取至少一个静态筛选条件字段、至少一个静态介词配置项、至少一个静态内容字段、至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段和逻辑介词配置项。
例如业务场景数据中包括的业务场景需求信息为:在2021年12月20日至2022年12月30日之间购买商品大于1件,购买商品的价格大于100的女性。
那么条件提取模块可以从业务场景需求信息中提取的静态筛选条件字段只有一个,为性别。静态介词配置项只有一个,为等于。静态内容字段只有一个,为女。动态筛选条件字段为3个,一个是2021年12月20日至2022年12月30日之间,一个是购买商品,还有一个是商品价格。动态介词配置项有两个,两个都是大于。动态内容字段有两个,一个为1,另一个为100。逻辑介词配置项为且。
语法解析模块可以在不破坏业务场景需求信息原意的情况下将至少一个静态筛选条件字段、至少一个静态介词配置项、至少一个静态内容字段、至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段和逻辑介词配置项进行合并,转化为一条SQL查询语句。
可选地,语法解析模块在S520中执行合并时,先合并至少一个静态筛选条件字段、至少一个静态介词配置项和至少一个静态内容字段,得到静态合并结果,承接上述例子,静态合并结果为“性别等于女”。进一步语法解析模块合并至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段,得到动态合并结果,承接上述例子,动态合并结果为“购买商品大于1,商品价格大于100”。语法解析模块最终将静态合并结果和动态合并结果通过逻辑介词配置项串联,得到合并最终结果,然后将合并最终结果转化为SQL查询语句。
在本申请的一实施例中,所述静态介词配置项包括大于、小于和等于中的一种或多种;所述动态介词配置项包括大于、小于和等于中的一种或多种;所述逻辑介词配置项包括且、或中的一种。
具体地,可以理解,静态筛选条件字段也有枚举型,时间型和数值型,这和标准化格式的用户静态数据中的枚举型静态数据,数值型静态数据和时间型静态数据是完全能够对应的上的,动态筛选条件字段也有枚举型,时间型和数值型,这和标准化格式的用户动态数据中的枚举型行为事件参数,数值型行为事件参数和时间型行为事件参数是完全能够对应的上的,这也是S530能够匹配的原因所在。
在本申请的一实施例中,所述S520包括:
S521,将至少一个静态筛选条件字段、至少一个静态介词配置项、至少一个静态内容字段、至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段和逻辑介词组合拼接并生成JSON语句。
例如,承接业务场景数据中包括的业务场景需求信息为:在2021年12月20日至2022年12月30日之间购买商品大于1件,购买商品的价格大于100的女性的这个例子,最终生成的JSON语句如下:
S522,读取JSON语句中的标识符,依据JSON语句中的标识符拆分父条件和子条件。
具体地,上述JSON语句中有一些标识符,例如“child”为父条件标识符,代表从属于上一层级的父条件。本步骤依据JSON语句中的标识符拆分父条件和子条件。
S523,读取JSON语句中的条件关键词,将JSON语句中的条件关键词转化为SQL关键字。
具体地,例如性别等于女,性别对应的SQL关键字为gender,则转换的SQL语句即为gender=’女’。
S524,将所有SQL关键字组合拼接为SQL查询语句。
具体地,拼接后的SQL查询语句为:
WITH groupConditionJson AS
(
SELECT user_id
FROM label_table
WHERE gender='女'
),
doConditionJson AS
(
SELECT user_id
,count(*)
FROM event_table
WHERE price>100
AND evnt_time BETWEEN'2021-12-20'
AND '2021-12-30'
GROUP BY user_id
HAVING count(*)>1
)
SELECT user_id
FROM groupConditionJson
JOIN doConditionJson
ON groupConditionJson.user_id=doConditionJson.user_id。
在本申请的一实施例中,所述S530包括:
S531,从服务器中调取用户静态数据表,将SQL查询语句与所述用户静态数据表进行匹配,得到用户静态数据表中与SQL查询语句匹配的用户设备唯一标识,将用户静态数据表中与SQL查询语句匹配的用户设备唯一标识纳入第一唯一标识集合。
S532,从服务器中调取用户动态数据表,将SQL查询语句与所述用户动态数据表进行匹配,得到用户动态数据表中与SQL查询语句匹配的用户设备唯一标识,将用户动态数据表中与SQL查询语句匹配的用户设备唯一标识纳入第二唯一标识集合。
S533,取第一唯一标识集合和第二唯一标识集合的交集,得到第三唯一标识集合。
S534,将第三唯一标识集合中的所有用户设备唯一标识作为命中所述SQL查询语句的用户设备唯一标识。
具体地,本步骤是查表过程,注意的是先分别查询用户静态数据表和用户动态数据表,分别获取查询结果,最后将查询结果取交集。最终将交集中的用户设备唯一标识作为命中所述SQL查询语句的用户设备唯一标识,待业务人员后续使用。换言之,用户静态数据表中与SQL查询语句匹配的用户设备唯一标识可能为多个,也可以为一个。用户动态数据表中与SQL查询语句匹配的用户设备唯一标识可能为多个,也可以为一个。
另一方面,本申请还提供一种用户分层系统。
如图2所示,在本申请的一实施例中,所述用户分层系统包括业务终端100和服务器200。
所述业务终端100用于执行如前述内容提及的用户分层方法。所述业务终端100包括存储器110。所述服务器200与所述业务终端100通信连接。
具体地,所述业务终端100搭载有分层模型。分层模型是预先训练好的深度学习模型。
需要说明的是,为了行文简洁,业务终端100,存储器110和服务器200只在本实施例进行标号,前述的用户分层方法的各个实施例中,业务终端100,存储器110和服务器200均不进行标号。
以上所述实施例的各技术特征可以进行任意的组合,各方法步骤也并不做执行顺序的限制,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (8)

1.一种用户分层方法,其特征在于,应用于业务终端,所述用户分层方法包括:
每隔预设时间段获取一次所有用户的用户数据;
将每一个用户的用户数据进行清洗,得到标准化格式的用户静态数据和用户动态数据,选取一个用户的用户数据,并读取用户数据中的用户设备唯一标识;
提取用户数据中的至少一条用户行为数据;
选取一条用户行为数据;
将该条用户行为数据转化为行为事件ID和与行为事件ID关联的多个行为事件参数;
返回所述选取一条用户行为数据,直至每一条用户行为数据均转化完毕;
返回所述选取一个用户的用户数据,直至每一个用户的用户数据中的所有用户行为数据均转化完毕;
建立用户动态数据表,将与每一个用户设备唯一标识对应的行为事件ID、以及与行为事件ID关联的多个行为事件参数和用户设备唯一标识相对应的置入所述用户动态数据表中;所述用户静态数据包括用户设备唯一标识与静态数据字段之间的耦合关系,所述用户动态数据包括用户设备唯一标识与用户行为数据之间的耦合关系;
将每一个用户的标准化格式的用户静态数据和用户动态数据存储入服务器中;
当接收到用户分层请求时,读取业务场景数据,将业务场景数据输入分层模型;
运行所述分层模型,输出与业务场景数据匹配的用户设备唯一标识,运行分层模型,控制分层模型中的条件提取模块提取业务场景数据中的至少一个静态筛选条件字段、至少一个静态介词配置项、至少一个静态内容字段、至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段和逻辑介词配置项;
控制分层模型中的语法解析模块将至少一个静态筛选条件字段、至少一个静态介词配置项、至少一个静态内容字段、至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段和逻辑介词配置项合并且转化为一条SQL查询语句;
将SQL查询语句与服务器中所有用户的标准化格式的用户静态数据和用户动态数据分别进行匹配,得到命中所述SQL查询语句的用户设备唯一标识;
将命中所述SQL查询语句的用户设备唯一标识作为与业务场景数据匹配的用户设备唯一标识;
将与业务场景数据匹配的用户设备唯一标识输出,返回所述每隔预设时间段获取一次用户数据。
2.根据权利要求1所述的用户分层方法,其特征在于,所述每隔预设时间段向服务器获取一次所有用户的用户数据,包括:
每隔预设时间段向服务器获取所有用户的业务结果数据;所述业务结果数据包括用户商品购买记录、用户登记表单填写记录和用户投诉记录中的一种或多种;
在本地的存储器中提取所有用户的用户行为数据;
通过第三方通信接口获取所有用户的第三方业务数据,所述第三方业务数据包括用户在第三方平台下的账号数据、用户在第三方平台下的客服沟通文字数据、以及用户在第三方平台下的客服沟通语音数据中的一种或多种。
3.根据权利要求2所述的用户分层方法,其特征在于,所述将每一个用户的用户数据进行清洗,得到标准化格式的用户静态数据和用户动态数据,包括:
选取一个用户的用户数据,并读取用户数据中的用户设备唯一标识;
将用户数据中的string格式字段取出,作为枚举型静态数据;
将用户数据中的int格式字段取出,作为数值型静态数据;
将用户数据中的timestamp字段取出,作为时间型静态数据;
创建用户静态数据表,将与每一个用户设备唯一标识对应的枚举型静态数据、数值型静态数据和时间型静态数据,以及用户设备唯一标识相对应的置入所述用户静态数据表中;
返回所述选取一个用户的用户数据,并读取用户数据中的用户设备唯一标识,直至每一个用户的用户数据均清洗完毕。
4.根据权利要求3所述的用户分层方法,其特征在于,所述行为事件参数包括枚举型行为事件参数、数值型行为事件参数和时间型行为事件参数中的一种或多种。
5.根据权利要求4所述的用户分层方法,其特征在于,所述静态介词配置项包括大于、小于和等于中的一种或多种;所述动态介词配置项包括大于、小于和等于中的一种或多种;所述逻辑介词配置项包括且、或中的一种。
6.根据权利要求5所述的用户分层方法,其特征在于,所控制分层模型中的语法解析模块将至少一个静态筛选条件字段、至少一个静态介词配置项、至少一个静态内容字段、至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段和逻辑介词配置项合并且转化为SQL查询语句,包括:
将至少一个静态筛选条件字段、至少一个静态介词配置项、至少一个静态内容字段、至少一个动态筛选条件字段、至少一个动态介词配置项、至少一个动态内容字段和逻辑介词组合拼接并生成JSON语句;
读取JSON语句中的标识符,依据JSON语句中的标识符拆分父条件和子条件;
读取JSON语句中的条件关键词,将JSON语句中的条件关键词转化为SQL关键字;
将所有SQL关键字组合拼接为SQL查询语句。
7.根据权利要求6所述的用户分层方法,其特征在于,所述将SQL查询语句与服务器中所有用户的标准化格式的用户静态数据和用户动态数据分别进行匹配,得到命中所述SQL查询语句的用户设备唯一标识,包括:
从服务器中调取用户静态数据表,将SQL查询语句与所述用户静态数据表进行匹配,得到用户静态数据表中与SQL查询语句匹配的用户设备唯一标识,将用户静态数据表中与SQL查询语句匹配的用户设备唯一标识纳入第一唯一标识集合;
从服务器中调取用户动态数据表,将SQL查询语句与所述用户动态数据表进行匹配,得到用户动态数据表中与SQL查询语句匹配的用户设备唯一标识,将用户动态数据表中与SQL查询语句匹配的用户设备唯一标识纳入第二唯一标识集合;
取第一唯一标识集合和第二唯一标识集合的交集,得到第三唯一标识集合;
将第三唯一标识集合中的所有用户设备唯一标识作为命中所述SQL查询语句的用户设备唯一标识。
8.一种用户分层系统,其特征在于,包括:
业务终端,用于执行如权利要求1-7中任意一项所述的用户分层方法;所述业务终端包括存储器;
服务器,与所述业务终端通信连接。
CN202210452350.6A 2022-04-27 2022-04-27 用户分层方法及系统 Active CN114840552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210452350.6A CN114840552B (zh) 2022-04-27 2022-04-27 用户分层方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210452350.6A CN114840552B (zh) 2022-04-27 2022-04-27 用户分层方法及系统

Publications (2)

Publication Number Publication Date
CN114840552A CN114840552A (zh) 2022-08-02
CN114840552B true CN114840552B (zh) 2025-05-02

Family

ID=82566896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210452350.6A Active CN114840552B (zh) 2022-04-27 2022-04-27 用户分层方法及系统

Country Status (1)

Country Link
CN (1) CN114840552B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407415A (zh) * 2023-04-19 2024-01-16 深圳Tcl新技术有限公司 数据查询方法、装置、计算机设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899205A (zh) * 2014-03-05 2015-09-09 张航 基于星型结构业务模型的动态搜索框架
CN110990400A (zh) * 2019-11-20 2020-04-10 浙江大搜车软件技术有限公司 数据库查询方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443059B (zh) * 2018-05-02 2024-11-08 中兴通讯股份有限公司 数据保护方法及装置
CN112861003A (zh) * 2021-02-19 2021-05-28 杭州谐云科技有限公司 一种基于云边协同的用户画像构建方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899205A (zh) * 2014-03-05 2015-09-09 张航 基于星型结构业务模型的动态搜索框架
CN110990400A (zh) * 2019-11-20 2020-04-10 浙江大搜车软件技术有限公司 数据库查询方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN114840552A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN102236663B (zh) 一种基于垂直搜索的查询方法、系统和装置
CN112925901B (zh) 一种辅助在线问卷评估的评估资源推荐方法及其应用
JP2008033931A (ja) テキストを追補する方法、クエリーに応答してテキストを取得する方法、およびシステム
CN111324631A (zh) 一种将查询数据的人类自然语言自动生成sql语句的方法
CN111339284A (zh) 产品智能匹配方法、装置、设备及可读存储介质
CN110337648B (zh) 用于高效地分发提醒消息的系统和方法
CN117611243B (zh) 一种量化分析内容标签的互动和销售指标的分析方法
CN114490571A (zh) 一种建模方法、服务器及存储介质
CN118761475A (zh) 一种基于知识图谱的案件笔录中多重证据关联方法
CN114416848A (zh) 基于数据仓库的数据血缘关系处理方法及装置
CN111428503B (zh) 同名人物的识别处理方法及处理装置
CN114218378A (zh) 一种基于知识图谱的内容推送方法、装置、设备及介质
CN114357159B (zh) 事件聚类/脉络构建方法及其相关装置、设备和存储介质
CN114840552B (zh) 用户分层方法及系统
CN117522485B (zh) 一种广告推荐方法、装置、设备及计算机可读存储介质
CN118628151A (zh) 一种政策信息筛查及客户匹配设备、系统及方法
CN115688933A (zh) 机器学习模型提供系统、机器学习模型提供方法
CN115269771A (zh) 一种基于语义的大数据分析系统
JP2019128925A (ja) 事象提示システムおよび事象提示装置
CN119377837A (zh) 一种智能化数据资产合规风险分析方法、基于智能化数据资产合规风险分析的查证方法及计算机程序产品
WO2021136009A1 (zh) 搜索信息的处理方法、装置及电子设备
CN118445494A (zh) 一种基于属性图模型的协同推荐方法、装置、设备及介质
CN118069790A (zh) 一种救助政策匹配方法及装置
Thoenssen Automatic, format-independent generation of metadata for documents based on semantically enriched context information
CN116303922A (zh) 咨询消息应答方法、装置、计算机设备、存储介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20251017

Address after: 311100 Zhejiang Province Hangzhou City Yuhang District Cangqian Street Xiangwang Street No. 1008 Building 9 402 Room A

Patentee after: Hangzhou Fansheng Xiangqian Technology Co.,Ltd.

Country or region after: China

Address before: 310000 Zhejiang Province Hangzhou City Gongshu District Xiangfu Street Yuhangtang Road 478 Building 8 3rd Floor Room 368

Patentee before: Hangzhou fanshengyouhang Technology Co.,Ltd.

Country or region before: China