WO2022105876A1

WO2022105876A1 - 一种用于选择决策的方法和装置

Info

Publication number: WO2022105876A1
Application number: PCT/CN2021/131777
Authority: WO
Inventors: 皇甫幼睿; 王坚; 李榕; 王俊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-11-23
Filing date: 2021-11-19
Publication date: 2022-05-27
Anticipated expiration: 2023-05-23
Also published as: EP4228330A1; CN114615680A; EP4228330A4

Abstract

本申请提供了一种用于选择决策的方法和装置，可以获取通信系统的状态信息，并根据状态信息，确定M个第一决策中每个第一决策对应的性能和/或每个第一决策被探索过的次数，M个第一决策为在该状态信息下可探索的决策，M为正整数，进一步根据每个第一决策对应的性能和/或每个第一决策被探索过的次数，从M个第一决策中确定目标第一决策。在本申请的技术方案中，可以根据可探索的决策的性能和/或可探索的决策已经被探索的次数来选择决策，可以避免随机探索，有助于通信系统可靠运行。

Description

一种用于选择决策的方法和装置

本申请要求于2020年11月23日提交中国国家知识产权局、申请号为202011322773.3、申请名称为“一种用于选择决策的方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信领域，并且更具体地，涉及一种用于选择决策的方法和装置。

背景技术

无线通信系统通常面对着变化的信道、变化的环境和变化的用户。硬件的非理想和建模的非理想使得通信系统在变化中很难通过理论公式计算寻求最优的决策，导致最优决策通常不易获取，有时甚至需要采用复杂度很高的遍历搜索才能得到最优决策；次优决策可以通过解优化问题的方式获得，但解优化问题的复杂度也很高，在一些场景下同样不易求解。

深度强化学习可以利用神经网络模型与环境的交互来搜索最优决策，以通信系统作为环境，深度强化学习可以用来搜索针对该通信系统的最优决策。通常，对于某个复杂的特定通信场景，只有探索可以找到更优的决策，但是现有通信系统中，为了通信系统可以可靠运行，往往坚持选用通用、保守的决策，导致通信系统大部分器件长期工作在非最优性能下，不能满足未来高性能通信系统的要求。

发明内容

本申请提供一种用于选择决策的方法和装置，有助于通信系统可靠运行。

第一方面，本申请提供了一种用于选择决策的方法，所述方法包括：获取通信系统的状态信息；根据所述状态信息，确定M个第一决策中每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，所述M个第一决策为在所述状态信息下可探索的决策，M为正整数；根据所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，从所述M个第一决策中确定目标第一决策。

在上述技术方案中，可以根据可探索的决策的性能和/或可探索的决策已经被探索的次数来选择决策，可以避免随机探索，有助于通信系统可靠运行。

结合第一方面，在一种可能的实现方式中，所述方法还包括：确定K个第二决策中每个第二决策对应的性能和/或所述每个第二决策被探索过的次数，所述K个第二决策为在选择所述目标第一决策后可探索的决策，K为正整数；根据所述每个第二决策对应的性能和/或所述每个第二决策被探索过的次数，从所述K个第二决策中确定目标第二决策。

通信系统中的决策往往不是单步决策，而是一系列决策。在上述技术方案中，多步决策中的每一步均可以根据当前可探索的决策的性能和/或当前可探索的决策已经被探索的次数来选择决策，可以避免随机探索，有助于通信系统可靠运行。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述根据所述状态信息，确定M个第一决策中每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，包括：循环执行以下步骤N次，得到所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，N为大于1的整数：根据所述每个第一决策当前对应的性能和/或所述每个第一决策当前被探索过的次数，从所述M个第一决策中选择待探索的第一决策；根据所述状态信息、以及所述通信系统的模型，更新所述待探索的第一决策对应的性能；和/或，在所述待探索的第一决策的被探索次数上加1。

在上述技术方案中，本申请可以利用通信系统中的已知模型，来指导决策探索，可以避免随机探索，有助于通信系统可靠运行。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述方法还包括：根据K个第二决策中每个第二决策当前对应的性能和/或所述每个第二决策当前被探索过的次数，从所述K个第二决策中选择待探索的第二决策，所述K个第二决策为在选择所述待探索的第一决策后可探索的决策；根据所述状态信息、以及所述通信系统的模型，更新所述待探索的第二决策对应的性能；和/或，在所述待探索的第二决策的被探索次数上加1；根据所述待探索的第二决策对应的性能更新所述待探索的第一决策对应的性能；和/或，在所述待探索的第一决策被探索次数上加1。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述根据所述每个第一决策当前对应的性能和/或所述每个第一决策当前被探索过的次数，从所述M个第一决策中选择待探索的第一决策，包括：根据所述每个第一决策当前对应的性能和/或所述每个第一决策当前被探索过的次数、以及所述每个第一决策的探索系数，从所述M个第一决策中选择所述待探索的第一决策，所述探索系数用于控制选择决策时的倾向。

在上述技术方案中，可以通过探索系数控制选择决策时的倾向，可以避免随机探索，有助于通信系统可靠运行。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述根据所述每个第一决策当前对应的性能和/或所述每个第一决策当前被探索过的次数、以及所述每个第一决策的探索系数，从所述M个第一决策中选择所述待探索的第一决策，包括：根据y ₁＝x ₁+C ₁·b ₁，从所述M个第一决策中选择所述待探索的第一决策，所述待探索的第一决策对应的y ₁的取值最大，其中，x ₁为所述每个第一决策当前对应的性能的函数，C ₁为所述探索系数，且C ₁为常数，b ₁为所述每个第一决策当前被探索过的次数的倒数的函数。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述根据y ₁＝x ₁+C ₁·b ₁，从所述M个第一决策中选择所述待探索的第一决策，包括：

根据

从所述M个第一决策中确定所述待探索的第一决策其中，X _1d为所述M个第一决策中第d个第一决策当前对应的性能，N ₁为所述M个第一决策当前被探索的总次数，N _1d为所述第d个第一决策当前被探索的次数。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述根据所述状态信息，确定M个第一决策中每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，包括：根据所述状态信息、以及历史信息，确定所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，所述历史信息包括在所述状态信息下的所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数。

在上述技术方案中，可以利用通信系统中的历史信息来指导决策探索，可以避免随机探索，有助于通信系统可靠运行。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述根据所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，从所述M个第一决策中确定目标第一决策，包括：根据所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数、以及所述每个第一决策的探索系数，从所述M个第一决策中确定所述目标第一决策，所述探索系数用于控制选择决策时的倾向。

在上述技术方案中，可以通过探索系数控制选择决策时的倾向，有助于选择更合适的决策，有助于通信系统的可靠运行。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述根据所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数、以及所述每个第一决策的探索系数，从所述M个第一决策中选择所述目标第一决策，包括：根据y ₂＝x ₂+C ₂·b ₂，从所述M个第一决策中选择所述目标第一决策，所述目标第一决策对应的y ₂的取值最大，其中，x ₂为所述每个第一决策对应的性能的函数，C ₂为所述探索系数，b ₂为所述每个第一决策被探索过的次数的倒数的函数。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述根据y ₂＝x ₂+C ₂·b ₂，从所述M个第一决策中选择所述目标第一决策，包括：

根据

从所述M个第一决策中确定目标第一决策，其中，X _2d为所述M个第一决策中第d个第一决策对应的性能，N ₂为所述M个第一决策被探索的总次数，N _2d为所述第d个第一决策被探索的次数，C ₂为常数、C ₂随N _2d变化或者C ₂由神经网络模型确定。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，若C ₂随N _2d变化，当N _2d小于预设阈值时，C ₂为0。

这样，虽然一些可探索决策具有潜在的探索价值，但由于被探索的次数过少，在通信系统执行该决策可能会给通信系统带来不可靠的结果，因此不进行探索，有助于通信系统的可靠运行。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，C ₂满足

其中，N _t为所述预设阈值，且N _t＝σ·N ₂，σ为预设常数。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述方法还包括：根据所述状态信息、以及所述目标第一决策，对所述神经网络模型进行训练，所述神经网络模型用于输出C _r。

在上述技术方案中，可以使用基于模型的决策探索的输出来训练神经网络模型，训练好的神经网络模型可以反过来指导基于模型的决策探索。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述方法还包括：获取探索决策所使用的参数，所述参数包括性能指标、N ₂、C ₂、C _r，σ，N _t中的至少一个。

可选地，若该方法由终端执行，终端可以从接入网设备获取所述参数。

可选地，若该方法由接入网设备执行，接入网设备可以从终端获取所述参数。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述获取探索决策所使用的参数，包括：根据任务类型，获取所述参数。

这样，针对不同任务可以采用不同的参数，有助于得到更准确的决策。例如，对于可靠度要求越高的任务，则C _r应越小，这样可以减小探索项的权重；σ应越大，这样探索次数太少的决策不增加该决策的探索置信度；N应越大，这样总探索次数大，最终的决策更准确。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述方法还包括：获取支持信息，所述支持信息用于确定所述第一决策对应的性能，所述支持信息包括所述通信系统的模型的仿真器、仿真条件、历史信息中的至少一个，所述历史信息包括在所述通信系统的不同状态下的每个决策对应的性能和/或所述每个决策被探索过的次数。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述方法还包括：接收接入网设备发送的第六消息，所述第六消息用于查询探索决策所使用的参数，所述参数包括性能指标、N ₂、C ₂、C _r，σ，N _t中的至少一个；向接入网设备发送第七消息，所述第七消息用于指示所述参数。

在上述技术方案中，接入网设备可以向终端查询探索决策使用的参数，以便接入网设备估计决策探索所需的时间，以便进行合理处理。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述方法还包括：接收接入网设备发送的第一消息，所述第一消息用于查询是否具备探索决策的能力；向接入网设备发送第二消息，所述第二消息用于指示具备探索决策的能力；接收接入网设备发送的第五消息，所述第五消息用于指示完成在核心网设备的探索决策能力的注册。

以切换任务为例，接入网设备需要协助终端在切换任务上探索更好的性能，所以接入网设备应对终端的可靠探索能力进行询问和鉴权(VIP客户)。终端对自身的任务可靠性有特定需求，接入网设备在探索参数的设置上应询问终端的特定设置，对于接入网设备覆盖范围内的高价值终端，接入网设备可以为其在核心网设备上注册可靠探索权限。例如，接入网设备覆盖范围内高频次出现的终端对于有效连续探索的帮助很大，可为这样的终端注册可靠探索权限，辅助接入网设备可靠探索性能提升、经验累积。

结合第一方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述方法还包括：接收终端发送的第八消息，所述第八消息用于请求开始探索决策；向终端发送探索结果，所述探索结果包括所述目标第一决策的信息；接收终端发送的第十消息，所述第十消息用于请求结束探索决策。

在上述技术方案中，可以定义决策探索的起始和结束，有助于决策探索的顺利进行。

第二方面，本申请提供了一种用于选择决策的方法，所述方法包括：向终端发送第一消息，所述第一消息用于查询是否具备探索决策的能力；接收所述终端发送的第二消息，所述第二消息用于指示具备探索决策的能力；向核心网设备发送第三消息，所述第三消息用于请求注册探索决策能力；接收所述的核心网设备发送的第四消息，所述第四消息用于指示完成探索决策能力的注册；向所述终端发送第五消息，所述第五消息用于指示完成在所述核心网设备的探索决策能力的注册。

接入网设备需要协助终端在切换任务上探索更好的性能，所以接入网设备应对终端的可靠探索能力进行询问和鉴权(可选)。终端对自身的任务可靠性有特定需求，接入网设备在探索参数的设置上应询问终端的特定设置，对于接入网设备覆盖范围内的高价值终端，接入网设备可以为其在核心网设备上注册可靠探索权限。在上述技术方案中，可为终端注册可靠探索权限，有助于辅助接入网设备可靠探索性能提升、经验累积。

结合第二方面，在一种可能的实现方式中，所述方法还包括：向所述终端发送第六消息，所述第六消息用于查询探索决策所使用的参数；接收所述终端发送的第七消息，所述第七消息用于指示所述参数；根据所述参数，估计探索决策的时间。

结合第二方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述方法还包括：向所述终端发送支持信息，所述支持信息包括通信系统模型的仿真器、仿真条件、历史信息中的至少一个，所述历史信息包括在通信系统的不同状态下的每个决策对应的性能和/或所述每个决策被探索过的次数。

第三方面，本申请提供了一种用于选择决策的方法，所述方法包括：向接入网设备发送第八消息，所述第八消息用于请求开始探索决策；接收所述接入网设备发送的探索结果；向所述接入网设备发送第十消息，所述第十消息用于请求结束探索决策。

第四方面，本申请提供了一种用于选择决策的方法，所述方法包括：接收接入网设备发送的第十三消息，所述第十三消息用于请求历史信息，所述历史信息包括在通信系统的不同状态下的每个决策对应的性能和/或所述每个决策被探索过的次数；向接入网设备发送第十五消息，所述第十五消息用于指示所述历史信息。

在上述技术方案中，可以向接入网设备提供历史信息，以便实现基于历史信息的决策探索。

结合第四方面，在一种可能的实现方式中，所述方法还包括：接收所述接入网设备发送的第三消息，所述第三消息用于请求为终端注册探索决策能力；向所述接入网设备发送第四消息，所述第四消息用于指示完成探索决策能力的注册。

结合第四方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，在向所述接入网设备发送第四消息之前，所述方法还包括：确定允许所述终端探索决策。

第五方面，本申请提供了一种用于选择决策的装置，所述装置包括：

处理单元，用于获取通信系统的状态信息；根据所述状态信息，确定M个第一决策中每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，所述M个第一决策为在所述状态信息下可探索的决策，M为正整数；根据所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，从所述M个第一决策中确定目标第一决策。

结合第五方面，在一种可能的实现方式中，所述处理单元还用于确定K个第二决策中每个第二决策对应的性能和/或所述每个第二决策被探索过的次数，所述K个第二决策为在选择所述目标第一决策后可探索的决策，K为正整数；根据所述每个第二决策对应的性能和/或所述每个第二决策被探索过的次数，从所述K个第二决策中确定目标第二决策。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述处理单元具体用于：循环执行以下步骤N次，得到所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，N为大于1的整数：根据所述每个第一决策当前对应的性能和/或所述每个第一决策当前被探索过的次数，从所述M个第一决策中选择待探索的第一决策；根据所述状态信息、以及所述通信系统的模型，更新所述待探索的第一决策对应的性能；和/或，在所述待探索的第一决策的被探索次数上加1。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述方法还包括：根据K个第二决策中每个第二决策当前对应的性能和/或所述每个第二决策当前被探索过的次数，从所述K个第二决策中选择待探索的第二决策，所述K个第二决策为在选择所述待探索的第一决策后可探索的决策；根据所述状态信息、以及所述通信系统的模型，更新所述待探索的第二决策对应的性能；和/或，在所述待探索的第二决策的被探索次数上加1；根据所述待探索的第二决策对应的性能更新所述待探索的第一决策对应的性能；和/或，在所述待探索的第一决策被探索次数上加1。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述处理单元具体用于：根据所述每个第一决策当前对应的性能和/或所述每个第一决策当前被探索过的次数、以及所述每个第一决策的探索系数，从所述M个第一决策中选择所述待探索的第一决策，所述探索系数用于控制选择决策时的倾向。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述处理单元具体用于：根据y ₁＝x ₁+C ₁·b ₁，从所述M个第一决策中选择所述待探索的第一决策，所述待探索的第一决策对应的y ₁的取值最大，其中，x ₁为所述每个第一决策当前对应的性能的函数，C ₁为所述探索系数，且C ₁为常数，b ₁为所述每个第一决策当前被探索过的次数的倒数的函数。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述处理单元具体用于：根据

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述处理单元具体用于：根据所述状态信息、以及历史信息，确定所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，所述历史信息包括在所述状态信息下的所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述处理单元具体用于：根据所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数、以及所述每个第一决策的探索系数，从所述M个第一决策中确定所述目标第一决策，所述探索系数用于控制选择决策时的倾向。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述处理单元具体用于：根据y ₂＝x ₂+C ₂·b ₂，从所述M个第一决策中选择所述目标第一决策，所述目标第一决策对应的y ₂的取值最大，其中，x ₂为所述每个第一决策对应的性能的函数，C ₂为所述探索系数，b ₂为所述每个第一决策被探索过的次数的倒数的函数。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，若C ₂随N _2d变化，当N _2d小于预设阈值时，C ₂为0。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，C ₂满足

其中，N _t为所述预设阈值，且N _t＝σ·N ₂，σ为预设常数。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述处理单元还用于：根据所述状态信息、以及所述目标第一决策，对所述神经网络模型进行训练，所述神经网络模型用于输出C _r。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述处理单元还用于：获取探索决策所使用的参数，所述参数包括性能指标、N ₂、C ₂、C _r，σ，N _t中的至少一个。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述处理单元具体用于：根据任务类型，获取所述参数。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述处理单元还用于：获取支持信息，所述支持信息用于确定所述第一决策对应的性能，所述支持信息包括所述通信系统的模型的仿真器、仿真条件、历史信息中的至少一个，所述历史信息包括在所述通信系统的不同状态下的每个决策对应的性能和/或所述每个决策被探索过的次数。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述装置还包括收发单元，用于接收接入网设备发送的第六消息，所述第六消息用于查询探索决策所使用的参数，所述参数包括性能指标、N ₂、C ₂、C _r，σ，N _t中的至少一个；向接入网设备发送第七消息，所述第七消息用于指示所述参数。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述收发单元还用于：接收接入网设备发送的第一消息，所述第一消息用于查询是否具备探索决策的能力；向接入网设备发送第二消息，所述第二消息用于指示具备探索决策的能力；接收接入网设备发送的第五消息，所述第五消息用于指示完成在核心网设备的探索决策能力的注册。

结合第五方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述收发单元还用于：接收终端发送的第八消息，所述第八消息用于请求开始探索决策；向终端发送探索结果，所述探索结果包括所述目标第一决策的信息；接收终端发送的第十消息，所述第十消息用于请求结束探索决策。

第六方面，本申请提供了一种用于选择决策的装置，所述装置包括：

收发单元，用于向终端发送第一消息，所述第一消息用于查询是否具备探索决策的能力；接收所述终端发送的第二消息，所述第二消息用于指示具备探索决策的能力；向核心网设备发送第三消息，所述第三消息用于请求注册探索决策能力；接收所述的核心网设备发送的第四消息，所述第四消息用于指示完成探索决策能力的注册；向所述终端发送第五消息，所述第五消息用于指示完成在所述核心网设备的探索决策能力的注册。

结合第六方面，在一种可能的实现方式中，所述收发单元还用于向所述终端发送第六消息，所述第六消息用于查询探索决策所使用的参数；接收所述终端发送的第七消息，所述第七消息用于指示所述参数；所述装置还包括处理单元，用于根据所述参数，估计探索决策的时间。

结合第六方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述收发单元还用于向所述终端发送支持信息，所述支持信息包括通信系统模型的仿真器、仿真条件、历史信息中的至少一个，所述历史信息包括在通信系统的不同状态下的每个决策对应的性能和/或所述每个决策被探索过的次数。

第七方面，本申请提供了一种用于选择决策的装置，所述装置包括：

收发单元，用于向接入网设备发送第八消息，所述第八消息用于请求开始探索决策；接收所述接入网设备发送的探索结果；向所述接入网设备发送第十消息，所述第十消息用于请求结束探索决策。

第八方面，本申请提供了一种用于选择决策的装置，所述装置包括：

收发单元，用于接收接入网设备发送的第十三消息，所述第十三消息用于请求历史信息，所述历史信息包括在通信系统的不同状态下的每个决策对应的性能和/或所述每个决策被探索过的次数；向接入网设备发送第十五消息，所述第十五消息用于指示所述历史信息。

结合第八方面，在一种可能的实现方式中，所述收发单元还用于：接收所述接入网设备发送的第三消息，所述第三消息用于请求为终端注册探索决策能力；向所述接入网设备发送第四消息，所述第四消息用于指示完成探索决策能力的注册。

结合第八方面或上述任意一种可能的实现方式，在另一种可能的实现方式中，所述装置还包括处理单元，用于在向所述接入网设备发送第四消息之前，确定允许所述终端探索决策。

第九方面，本申请提供了一种通信装置，包括处理器、存储器和收发器。其中，存储器用于存储计算机程序，处理器用于调用并运行存储器中存储的计算机程序，并控制收发器收发信号，以使通信装置执行如第一方面或其任意可能的实现方式中的方法，或者执行如第二方面或其任意可能的实现方式中的方法，或者执行如第三方面或其任意可能的实现方式中的方法，或者执行如第四方面或其任意可能的实现方式中的方法。

第十方面，本申请提供一种通信装置，包括处理器和通信接口，所述通信接口用于接收信号并将接收到的信号传输至所述处理器，所述处理器处理所述信号，使得如第一方面或其任意可能的实现方式中的方法被执行，或者使得如第二方面或其任意可能的实现方式中的方法被执行，或者使得如第三方面或其任意可能的实现方式中的方法被执行，或者使得如第四方面或其任意可能的实现方式中的方法被执行。

可选地，上述通信接口可以为接口电路，处理器可以为处理电路。

第十一方面，本申请提供了一种芯片，包括逻辑电路和通信接口，所述通信接口，用于接收待处理的数据和/或信息，所述逻辑电路用于执行如上述任意一方面或其任意实现方式中所述的数据和/或信息处理，以及，所述通信接口还用于输出所述逻辑电路得到处理结果。

第十二方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，当计算机指令在计算机上运行时，使得如第一方面或其任意可能的实现方式中的方法被执行，或者使得如第二方面或其任意可能的实现方式中的方法被执行，或者使得如第三方面或其任意可能的实现方式中的方法被执行，或者使得如第四方面或其任意可能的实现方式中的方法被执行。

第十三方面，本申请提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得如第一方面或其任意可能的实现方式中的方法被执行，或者使得如第二方面或其任意可能的实现方式中的方法被执行，或者使得如第三方面或其任意可能的实现方式中的方法被执行，或者使得如第四方面或其任意可能的实现方式中的方法被执行。

第十四方面，本申请提供一种无线通信系统，包括如第五方面、第六方面、第七方面、或第七方面所述的通信装置。

附图说明

图1是可以应用本申请实施例的通信系统的一种示意性架构图。

图2是本申请的用于选择决策的方法的整体流程图。

图3是本申请提供的用于选择决策的方法的示意性流程图。

图4是通过历史信息辅助探索的示例。

图5是多步探索的示意图。

图6是通过通信系统的模型辅助探索的示例(一)。

图7是通过通信系统的模型辅助探索的示例(二)。

图8是本申请的方法应用于信道编码场景的一个示例。

图9是在核心网设备为终端注册可靠探索能力的示意性流程图。

图10是由接入网设备选择决策时的信令交互的示意图。

图11为本申请的实施例提供的选择决策的装置的结构示意图。

图12为本申请的实施例提供的选择决策的装置的另一结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例的技术方案可以应用于各种通信系统，例如：全球移动通信系统(global system for mobile communications，GSM)、增强型数据速率GSM演进系统(enhanced data rate for GSM evolution，EDGE)、宽带码分多址系统(wideband code division multiple access，WCDMA)、码分多址2000系统(code division multiple access，CDMA2000)、时分同步码分多址系统(time division-synchronization code division multiple access，TD-SCDMA)/长期演进(long term evolution，LTE)系统、LTE频分双工(frequency division duplex，FDD)系统、LTE时分双工(time division duplex，TDD)、通用移动通信系统(universal mobile telecommunication system，UMTS)、全球互联微波接入(worldwide interoperability for microwave access，WiMAX)通信系统、窄带物联网系统(narrow band-internet of things，NB-IoT)、第五代(5th generation，5G)系统或新无线(new radio，NR)、卫星通信系统、以及未来的移动通信系统等。本申请实施例的技术方案可以应用于5G系统的(enhanced mobile broadband，eMBB)，超可靠低时延通信(ultra-relaible and low latency communication，URLL)、以及增强型机器类型通信(enhanced machine-type communication，eMTC)等应用场景。

如图1所示，该通信系统100可以包括接入网设备(如图1中的接入网设备110)和至少一个终端(如图1中的终端120和终端130)。无线通信系统通常由小区组成，每个小区可以包含一个接入网设备，终端通过无线的方式与接入网设备相连，接入网设备可以向多个终端提供通信服务。图1中的终端可以是固定位置的，也可以是可移动的。图1只是示意图，该通信系统中还可以包括其它网络设备，如还可以包括核心网设备、无线中继设备和无线回传设备等，在图1中未画出。本申请的实施例对该通信系统中包括的接入网设备和终端的数量不做限定。

本申请实施例中的终端也可以称为用户设备(user equipment，UE)、用户、接入终端、用户单元、用户站、移动站、移动台(mobile station，MS)、远方站、远程终端、移动设备、用户终端、终端设备、无线通信设备、用户代理或用户装置等。终端可以是蜂窝电话、智能手表、无线数据卡、手机、平板电脑、个人数字助理(personal digital assistant，PDA)电脑、无线调制解调器、计算设备、连接到无线调制解调器的其它处理设备、手持设备、膝上型电脑、机器类型通信(machine type communication，MTC)终端、带无线收发功能的电脑、虚拟现实终端、增强现实终端、工业控制中的无线终端、无人驾驶中的无线终端、远程手术中的无线终端、智能电网中的无线终端、运输安全中的无线终端、智慧城市中的无线终端、智慧家庭中的无线终端、卫星通信中的无线终端(例如，卫星电话或卫星终端等)等等。本申请的实施例对终端所采用的具体技术和具体设备形态不做限定。

本申请实施例中的接入网设备可以是用于与终端通信的设备。该接入网设备可以是GSM系统或码分多址(code division multiple access，CDMA)中的基站(base transceiver station，BTS)，也可以是宽带码分多址(wideband code division multiple access，WCDMA)系统中的基站(nodeB，NB)，还可以是LTE系统中的演进型基站(evolutional nodeB，eNB或eNodeB)，还可以是云无线接入网络(cloud radio access network，CRAN)场景下的无线控制器，或者该网络设备可以为中继站、接入点、车载设备或者可穿戴设备，或者该网络设备可以为设备到设备(device to device，D2D)通信或机器通信中承担基站功能的终端，或者该网络设备可以为5G网络中的网络设备或者未来演进的公共陆地移动网 (public land mobile network，PLMN)网络中的接入网设备等，本申请实施例并不限定。此外，本申请实施例中的接入网设备也可以是完成基站部分功能的模块或单元，例如，可以是集中式单元(central unit，CU)，也可以是分布式单元(distributed unit，DU)。本申请的实施例对接入网设备所采用的具体技术和具体设备形态不做限定。

在一些实现方式中，上述基站可以包含基带单元(baseband unit，BBU)和远端射频单元(remote radio unit，RRU)。BBU和RRU可以放置在不同的地方。例如，RRU拉远，放置于高话务量的区域，BBU放置于中心机房。BBU和RRU也可以放置在同一机房。BBU和RRU也可以为一个机架下的不同部件。

本申请实施例的终端和接入网设备可以部署在陆地上，包括室内或室外、手持或车载；也可以部署在水面上；还可以部署在空中的飞机、气球和人造卫星上。本申请的实施例对终端和接入网设备的应用场景不做限定。

本申请实施例的终端和接入网设备之间可以通过授权频谱进行通信，也可以通过免授权频谱进行通信，也可以同时通过授权频谱和免授权频谱进行通信。终端和接入网设备之间可以通过6千兆赫(gigahertz，GHz)以下的频谱进行通信，也可以通过6GHz以上的频谱进行通信，还可以同时使用6GHz以下的频谱和6GHz以上的频谱进行通信。本申请的实施例对终端和接入网设备之间所使用的频谱资源不做限定。

无线通信系统通常面对着变化的信道、变化的环境和变化的用户。硬件的非理想和建模的非理想使得通信系统在变化中很难通过理论公式计算寻求最优的决策，导致最优决策通常不易获取，有时甚至需要采用复杂度很高的遍历搜索才能得到最优决策；次优决策可以通过解优化问题的方式获得，但解优化问题的复杂度也很高，在一些场景下同样不易求解。通常，对于某个复杂的特定通信场景，只有探索可以找到更优的决策。

深度强化学习可以利用神经网络模型与环境的交互来搜索最优决策，以通信系统作为环境，深度强化学习可以用来搜索针对该通信系统的最优决策。

无模型(model-free)强化学习算法是深度强化学习中最常用的一类，例如深度Q网络(deep Q network，DQN)、近端策略优化(proximal policy optimization，PPO)等算法。无模型强化学习算法中没有模型，完全依靠和环境的交互得到一种决策，所以探索较随机，这在环境非常复杂无法建模的时候非常有用。但是对于实际的通信系统，随机探索有可能会导致通信系统性能恶化，由于通信系统的可靠性要求较高，这种探索方式是不能接受的。

这样，现有的通信系统为了通信系统可以可靠运行，往往坚持选用通用、保守的决策，导致通信系统大部分器件长期工作在非最优性能下，不能满足未来高性能通信系统的要求。

针对上述问题，本申请提供了一种用于选择决策的方法和装置，能够避免随机探索，有助于通信系统可靠运行。

图2是本申请的用于选择决策的方法的整体流程图。

1)如图2所示，可以将当前通信系统的状态作为输入，输入到通信系统已知模型，通信系统已知模型根据当前通信系统的状态首先可以确定可探索决策，该通信系统模型在可探索决策中选择决策，并评估该决策对应的性能，经过N次迭代后，得到探索的每个决策θ的性能X _θ和探索次数B _θ，以此来指导可靠通信决策的选择。其中，通信系统已知模型的输出可以包括上述可探索决策的性能。

2)如图2所示，还可以根据当前通信系统的状态查询该通信系统的真实经验，即历史信息，在当前通信系统的状态下查询历史信息，首先可以确定历史上的已探索决策，同时，历史信息可以给出每个已探索决策θ对应的性能X _θ和探索次数B _θ，历史信息相当于已完成了多次探索，根据历史信息可以指导并选择可靠通信决策，把历史信息看作通信模型，这个过程也可以称为基于模型的探索。其中，历史信息可以包括历史上本设备或其它设备在相同或相似通信系统状态下选择过的决策及相应的性能，这些选择过的决策即是已探索决策。

3)如图2所示，通信系统状态、通信系统已知模型和历史信息的输出还可以用于训练神经网络模型，训练好的神经网络模型可以反过来指导可靠通信决策的选择。例如，通信系统在采取可靠通信决策后会得到一个真实性能，可以把这个决策和真实性能存入历史信息中，并用历史信息来训练神经网络模型，让神经网络模型输出某种通信系统状态下各个决策的估计性能X _θ和可靠探索系数C _θ。通过多次迭代计算神经网络，可以得到每个策略的探索次数B _θ。根据神经网络的输出选择可靠通信决策。

4)如图2所示，选择可靠通信决策时，可以计算Y _θ＝X _θ+C _θ×B _θ，选择能让Y _θ最大的决策θ。其中，可靠探索系数C _θ可以是预设的、也可以是查表得到的、也可以是根据当前的决策探索情况计算得到的、也可以是通信过程中由通信设备之间协商得到的、也可以是由神经网络根据当前通信系统状态输出的。可靠探索系数C _θ的取值是为了平衡探索项和利用项，其中X _θ对应利用项，B _θ对应探索项。平衡结果为让选择的决策的性能不会太差，同时保持对探索少的决策进行更多的探索。

上述选择的可靠通信决策可以是一系列决策，选择可靠通信决策即相当于选择多步连续的决策。

上述通信系统的状态针对于不同的任务可以不同。例如，对于切换任务和配对任务，通信系统的状态可以是终端所在位置。又如，对于信道编码任务，通信系统的状态可以是当前的码构造。

上述可探索决策是指在当前通信系统的状态下可行的决策，例如，在切换任务中，当终端处于某个位置时，只有切换到A基站，或切换到B基站这两个选项，没有切换到C基站这样的选项，此时可探索决策就只有切换到A或B。

上述通信系统模型可以根据通信系统的状态得到决策对应的性能。例如，通信系统模型可以是蒙特卡洛仿真器、模型公式、神经网络模型等。针对不同的任务，该模型公式可以不同。例如，模型公式可以是信道容量公式、信噪比(signal-noise ratio，SNR)公式、能量效率公式、频谱效率公式等通信系统相关计算公式中的至少一个。

上述决策的性能，也可以描述为决策对应的性能，是选择并执行某个决策后导致通信系统具有的性能。执行这个决策可能是在仿真环境中执行，得到的是对应的仿真环境下的性能；也可能是在真实的通信网络中执行，得到的是对应的真实环境下的性能。同样，针对不同的任务，决策的性能可能是信道容量、信噪比、能量效率、频谱效率等通信系统相关性能指标中的至少一个。

上述可靠通信决策为通过多次探索后最终选择的决策。也可以把可靠通信决策看成真正在通信系统中执行的待探索决策，待探索决策是单步探索的决策，待探索决策有可能是在仿真下进行的，但可靠通信决策是在真实通信系统中执行的。

需要说明的是，上述1)、2)、3)可以单独执行，也可以任意组合在一起执行，本申请实施例对比不做具体限定。

这样，本申请可以利用通信系统中的已知模型和/或历史信息和/或神经网络模型，来指导决策探索，可以避免随机探索，有助于通信系统可靠运行。

下面对本申请提供的用于选择决策的方法进行详细描述。

图3是本申请提供的用于选择决策的方法的示意性流程图。图3所示的方法可以包括以下内容的至少部分内容。

在步骤310中，获取通信系统的状态信息。

上述通信系统的状态信息为用于表征通信系统的状态的信息，针对不同的任务可以不同。例如，对于切换任务和配对任务，状态信息可以是终端设备所在位置的信息。对于功率分配任务，状态信息可以是接入网设备和终端设备之间的信道的信道状态信息。又如，对于信道编码的构造任务，状态信息可以是当前的码构造的信息。

在步骤320中，根据通信系统的状态信息，确定M个第一决策中每个第一决策的性能和/或每个第一决策被探索过的次数，M为正整数。需要说明的是，本文中对决策被探索过的次数、决策的访问次数、决策的次数不做区分。

其中，M个第一决策为在该状态信息下可探索的决策。第一决策的性能可以是第一决策的算数平均性能、加权平均性能、最大或最小性能、累加性能等，对此不作具体限定。

在本申请中，确定M个第一决策中每个第一决策的性能和/或每个第一决策被探索过的次数的方式有很多，本申请不作具体限定。例如，可以通过下述的方式1和2来实现。

方式1：通过通信系统的模型辅助探索

即可以将当前通信系统的状态作为输入，输入到通信系统的模型，通过通信系统模型的计算，确定M个第一决策中每个第一决策的性能和/或每个第一决策被探索过的次数。

作为一个示例，可以循环执行以下步骤N次，得到每个第一决策的性能和/或每个第一决策被探索过的次数，N为大于1的整数：根据每个第一决策当前的性能和/或每个第一决策当前被探索过的次数，从M个第一决策中选择待探索的第一决策；根据上述状态信息、以及通信系统的模型，更新待探索的第一决策对应的性能；和/或，在待探索的第一决策的被探索次数上加1。

可选地，可以根据每个第一决策当前对应的性能和/或每个第一决策当前被探索过的次数、以及每个第一决策的探索系数，从M个第一决策中选择待探索的第一决策。其中，探索系数用于控制选择第一决策时的倾向，平衡探索、利用和可靠。该倾向可以是更多地选择被探索次数少的第一决策，可以是更多地选择被探索次数少且性能好的第一决策，可以是更多地选择性能好的第一决策等。不同任务或场景下，探索系数的设置可以不同。

以综合考虑性能和被探索过的次数为例，即根据每个第一决策当前对应的性能、每个第一决策当前被探索过的次数、以及每个第一决策的探索系数，从M个第一决策中选择待探索的第一决策。

在一些实现方式中，可以根据y ₁＝x ₁+C ₁·b ₁，从M个第一决策中选择待探索的第一决策，待探索的第一决策对应的y ₁的取值最大，其中，x ₁为每个第一决策当前对应的性能的函数，C ₁为每个第一决策的探索系数，且C ₁为常数，b ₁为每个第一决策当前被探索过的次数的倒数的函数。

例如，可以采用经典的上置信界(upper confidence boundary，UCB)算法结合可靠通信的设计，在本申请中称之为可靠上置信界(R-UCB)探索，可以根据如下的公式1，从M个第一决策中确定待探索的第一决策：

X _1d为M个第一决策中第d个第一决策当前对应的性能，N为M个第一决策当前被探索的总次数，N _1d为第d个第一决策当前被探索的次数。

其中，X _1d为利用项，

为探索项，待探索的第一决策对应的y ₁的取值最大，X _1d为是M个第一决策中第d个第一决策当前的性能，N ₁为M个第一决策当前被探索的总次数，N _1d为第d个第一决策当前被探索的次数，C ₁为每个第一决策的探索系数，C ₁为常数。C ₁用于控制选择决策时的倾向，或可理解为改变利用项和探索项的比例，C ₁越大则选择决策时更多的探索那些被探索的次数少的决策，C ₁越小则选择决策时更多的探索性能好的决策。

方式2：通过历史信息辅助探索

在一些实现方式中，通信装置中可以记录后存储历史上本设备或其它设备在相同或相似通信系统状态下的决策及相应的性能，当需要探索决策时，可以根据当前的通信系统状态，获取存储的M个第一决策中每个第一决策的性能和/或每个第一决策被探索过的次数。

例如，通信装置中可以以表格的形式存储不同通信系统状态下历史上本设备或其它设备的决策及相应的性能，当需要探索决策时，可以根据当前的通信系统状态通过查表的方式，得到M个第一决策中每个第一决策的性能和/或每个第一决策被探索过的次数。

如图4所示，与方式1不同的是，方式2不需要经过一次次的单次探索，因为历史信息可以看作历史上已经做过多次探索。

在步骤330中，根据M个第一决策中每个第一决策的性能和/或每个第一决策被探索过的次数，从M个第一决策中确定目标第一决策。目标第一决策可以对应于上文所述的可靠通信决策。

从M个第一决策中确定目标第一决策的方式有很多，本申请实施例不作具体限定。

在一些实现方式中，可以从M个第一决策中选择性能最好的第一决策作为目标第一决策。

在另一些实现方式中，可以从M个第一决策中选择被探索次数最多的第一决策作为目标第一决策。

在另一些实现方式中，可以综合考虑性能和被探索过的次数来选择目标第一决策。

可选地，可以根据每个第一决策对应的性能和/或每个第一决策被探索过的次数、以及每个第一决策的探索系数，从M个第一决策中选择目标第一决策。其中，探索系数用于控制选择第一决策时的倾向，平衡探索、利用和可靠。该倾向可以是更多地选择被探索次数少的第一决策，可以是更多地选择被探索次数少且性能好的第一决策，可以是更多地选择性能好的第一决策等。不同任务或场景下，探索系数的设置可以不同。

具体地，可以根据y ₂＝x ₂+C ₂·b ₂，从M个第一决策中选择目标第一决策，目标第一决策对应的y ₂的取值最大，其中，x ₂为每个第一决策对应的性能的函数，C ₂为每个第一决策的探索系数，b ₂为每个第一决策被探索过的次数的倒数的函数。

例如，可以根据如下的公式2，从M个第一决策中确定待探索的第一决策：

其中，X _2d为利用项，

为探索项，X _2d为是M个第一决策中第d个第一决策的性能，N ₂为M个第一决策被探索的总次数，N _2d为第d个第一决策被探索的次数，C ₂为每个第一决策的探索系数，C ₂为常数、C ₂随N _2d变化或者C ₂由神经网络模型确定。C ₂用于控制选择决策时的倾向，或可理解为改变利用项和探索项的比例，C ₂越大则选择决策时更多的探索那些被探索的次数少的决策，C ₂越小则选择决策时更多的探索性能好的决策。

可选地，在选择可靠通信决策时，若设置C ₂随N _d变化，可以设置N _d小于预设阈值时，C ₂为0。这样，虽然一些可探索决策具有潜在的探索价值，但由于被探索的次数过少，在通信系统执行该决策可能会给通信系统带来不可靠的结果，因此不进行探索，有助于通信系统的可靠运行。

例如，C ₂满足：

其中，N _t为预设阈值，且N _t＝σ·N ₂，σ为预设常数。例如，σ＝0.001，当N ₂为10000时，预设阈值为10，即对于被探索次数小于10的决策，C ₂为0。此处C ₂的设置为阶跃设计，即为0或另一个值。C ₂也可以设置成连续变化，即C ₂值随N _2d的大小连续变化。

另外，C ₂的设置在通信系统采用不同的探索方式时可以不同。例如，在通过通信系统的模型辅助探索时，C ₂为定值；在通过历史信息作为探索依据时，C ₂可以设置为随N _2d变化的值。

通信系统中的决策往往不是单步决策，而是一系列决策，这种多步的决策可以用树形表示，多步决策组成的树可以称为决策树，决策树中每个节点可以对应一种可探索决策。此时可以用通信系统模型或历史信息确定树形结构中每个节点的性能和被探索过的次数；同理可以采用树形的记载历史信息的表格来进行查表探索。父节点对应的决策的性能为其所有子节点对应的决策的性能之和，父节点对应的决策的被探索过的次数为其所有子节点对应的决策被探索过的次数之和。子节点的状态为在父节点的状态基础上选择子节点对应的决策的结果。

例如，如图5所示的多步决策，状态A下的决策B的性能为状态A+B下的决策C的性能与状态A+B下的决策D的性能之和，状态A下的决策B的次数为状态A+B下的决策C的次数与状态A+B下的决策D的次数之和；状态A+B下的决策C的性能为状态A+B+C下的决策E的性能、状态A+B+C下的决策F的性能和状态A+B+C下的决策G的性能之和，状态A+B下的决策C的次数为状态A+B+C下的决策E的次数、状态A+B+C下的决策F的次数和状态A+B+C下的决策G的次数之和。

对于多步探索，上述的方式1，还可以继续执行以下动作：根据K个第二决策中每个第二决策当前对应的性能和/或所述每个第二决策当前被探索过的次数，从所述K个第二决策中选择待探索的第二决策，所述K个第二决策为在选择所述待探索的第一决策后可探索的决策；根据所述状态信息、以及所述通信系统的模型，更新所述待探索的第二决策对应的性能；和/或，在所述待探索的第二决策的被探索次数上加1；根据所述待探索的第二决策对应的性能更新所述待探索的第一决策对应的性能；和/或，在所述待探索的第一决策被探索次数上加1。其中，根据所述待探索的第二决策对应的性能更新所述待探索的第一决策对应的性能，可以理解为将待探索的第二决策的性能加到原来的第一决策的性能上。

图3所示的方法还可以包括步骤340和步骤350。

在步骤340中，确定K个第二决策中每个第二决策的性能和/或每个第二决策被探索过的次数，K个第二决策为在选择所述目标第一决策后可探索的决策，K为正整数。

在步骤350中，根据每个第二决策对应的性能和/或每个第二决策被探索过的次数，从K个第二决策中确定目标第二决策。

确定目标第二决策的方法与确定目标第一决策相同或相似，可以参考上文的相关描述。不同的是，通信系统的状态为选择目标第一决策后的状态。

需要说明的是，图3仅示出了多步探索中的两步，实际上可以为更多步的探索。

上文描述了利用通信系统模型和历史信息探索决策的方法，下面对神经网络模型辅助探索决策的方法进行描述。

当单步可探索决策的数量大，且决策步数很多时，可以认为决策空间非常大，即决策树既宽且深，此时相似状态下的N次探索没有相互借鉴演进的机制。例如，假设基站A、B、C周边基站及环境相似，在同样的相对位置上，UE切换情况的探索符合相似规律，若基站A、B、C各自进行N次没有关联的探索，是对资源的浪费。本申请可以利用神经网络模型辅助决策探索，并辅助减小探索空间。

在本申请中，可以使用基于模型的决策探索的输出来训练神经网络模型，训练好的神经网络模型可以反过来指导基于模型的决策探索。例如，通信系统在采取可靠通信决策后会得到一个真实性能，可以根据这个可靠通信决策和性能来训练神经网络模型。

这样，由于神经网络模型已经拟合到历史上其它设备的多次探索结果，所以可以用于辅助减小探索空间。

在一些实现方式中，在上述公式1或公式2的基础上，可以在探索项上增加一个因子P _d来对决策树进行泛化和剪枝，如公式3所示：

此时，探索系数为C·P _d，P _d由神经网络模型输出，为了方便描述，这里以及下文将公式1和公式2中的参数同一描述为y，X _d，C，N，N _d，并未进行区分，具体地描述可以参见公式1和公式2，在此不再赘述。

在本申请中，确定决策探索所涉及或者使用的各项参数的方式有很多，对此不做具体定限定。

在一些实现方式中，可以根据触发决策探索的任务类型或者应用场景来确定决策探索使用的各项参数。各项参数可以包括N，C，C _r，σ，N _t中的至少一个。

例如，在通信装置上可以记录或存储有可靠探索参数表，根据任务类型，通过查表的方式，确定各项参数。

表1是可靠探索参数表的一个示例。

表1

可靠探索任务类型	性能指标	参数C _r	参数σ	总探索次数N
1.切换	SNR	1.414	0.01	1000
2.UE配对	频谱效率	2.5	0.001	100
3.功率控制	频谱效率	2.0	0.001	200
…	…	…	…

不同任务对可靠度的要求不同，对于可靠度要求越高的任务，则C _r应越小，这样可以减小探索项的权重；σ应越大，这样探索次数太少的决策不增加该决策的探索置信度；N应越大，这样总探索次数大，最终的决策更准确。如表1所示，当触发决策探索的任务为切换任务时，性能指标可以为信噪比SNR，C _r取值为1.414，σ取值为0.01，N为1000；当触发决策探索的任务为UE配对任务时，性能指标可以为频谱效率，C _r取值为2.5，σ取值为0.001，N为100；当触发决策探索的任务为功率控制任务时，性能指标可以为频谱效率，C _r取值为2.0，σ取值为0.001，N为200等。

下面结合具体的例子，对上述方法进行详细描述。

示例1

图6和图7是通过通信系统的模型辅助探索的示例。

为了输出一个可靠通信决策，基于模型探索需要在输出前尽量多的模拟执行各种决策带来的性能增益，并以这些模拟结果作为依据最终输出可靠通信决策，当然，模拟次数多了对系统资源的消耗也会增加，这里需要做出权衡。假设基于模型探索在每次决策前先模拟N次探索，每次探索选择一个可探索决策(可以对应于上文的待探索的第一决策)，并利用通信系统模型，根据输入的通信系统状态和选择的可探索决策，得到该可探索决策的估计性能，并将该估计性能累加到该可探索决策在探索过程中被选择的累加性能中，并且记录该可探索决策在N次探索中已经被选择了多少次；达到N次探索后，可以输出访问次数最多的可探索决策作为可靠通信决策，也可以综合考虑性能和访问次数来选择可靠通信决策。

例如，如图6所示，在当前通信系统状态下，存在可探索决策A、B、C、D，在某次探索中选择了可探索决策B，经过通信系统的模型分析，输出可探索决策B的一个估计性能，将得到的估计性能累加到性能B中，再对访问次数NB加1。

具体地，如图7所示，选择可探索决策B后，可以通过信道容量公式、信噪比公式、能量效率公式、频谱效率公式等通信公式计算在当前通信系统状态下选择可探索决策B导致的系统性能；也可以利用蒙特卡洛仿真器仿真可探索决策B在一般场景(例如，瑞利信道等)下的性能；也可以利用生成对抗网络(generative adversarial networks，GAN)作为场景模拟器，模拟特定的通信场景，结合仿真器，得到可探索决策B在特定场景下针对当前通信系统状态的性能。

由图6和图7可知，单次探索选择可探索决策的方式不是随机的(首次可以是随机的)，而是需要根据各个可探索决策的累加性能和访问次数来选择决策。

示例2

以表2为例，对根据历史信息的查表法如何探索、输出可靠决策进行描述。

此时，由于访问次数不是基于模型探索一次次探索出来的，所以不能再以访问次数最大来选择可靠决策，而应选择平均性能最好的可探索决策，或者也可以综合考虑性能和探索次数来选择可靠通信决策。

以综合考虑性能和探索次数来选择可靠通信决策为例，在表2中，可探索决策A、B、C、D中B、D的平均性能更高，且被探索过的次数少，其中D的探索次数更少，更值得探索。可探索决策E、F的过往探索次数过少，基于上述公式1和2，可探索决策E、F探索项可能为零。最终通过上述公式1和2，确定使y的取值最大的为可探索决策D，因此输出可探索决策D。

值得注意的是，经典的UCB算法会选择可探索决策F，因为可探索决策F没有被探索过，所以UCB公式的值为无穷大，经典的UCB算法因此也被认为是一个乐观的算法，但在可靠通信中，这种盲目乐观可能导致系统崩溃，因此要对公式加以限制。

表2

示例3

结合表3对采用历史信息的查表法进行多步探索进行描述。

假设任务为UE配对任务，需要从6个UE中选择3个。状态A下的“树形通信策略价值表”如表3所示。

表3

根据公式1-4进行多步探索后，多步决策顺序B、C、E会以更大概率被选择，即用户1、用户2、用户3被选择用于配对。

示例4

该示例为本申请的方法应用于信道编码场景的一个示例。

极化码(polar code)的嵌套(nested)码构造的探索是一个空间很大的决策树，此时，通信系统模型可以为信道编译码的蒙特卡洛仿真器，性能指标可以为-log(BLER)，神经网络模型可用于决策树的泛化和剪枝。如图8所示，0，1，2，3，4为Polar的nested码构造的可靠度排序位置指示。随着码长增加，树会更深更广，此处仅示例一个Polar码嵌套构造的部分决策树。假设已知0为最可靠的信息比特位置，直接确定0为父节点，接下来，下一个信息比特的位置可以有多种选择，对应多个子节点，此时，可以通过蒙特卡洛仿真得到各个子节点的性能，本例中，就是分别仿真0->1、0->2、0->4序列的性能，根据得到的每个子节点的仿真性能，发现0->1这条路线的性能最好，我们接着选择1下面的决策，对比0->1->4和0->1->2的性能，发现0->1->2的性能更好，把0->1->2的性能和0->1->4的性能加到父节点1上。注意，0->1的性能好于0->2不代表0->1->2的性能一定好于0->2->1，为了最终的长序列整体性能最好，即找到平均性能最好的一条路线，也需要探索父节点2下面的决策。在父节点1和父节点2中做出探索决策的选择时，依据的指标就是前面所述平衡探索和利用的方法。

示例5

如表4所示，在信令上传输可靠探索参数的开销较大，为了减小信令开销，可以设计并标准化映射表，表里的每个可靠探索等级对应一套可靠探索参数。这样，收发端保存同样的映射表，在信令传输可靠探索参数时，发端可以只发送可靠探索等级的序号，收端就可以得到相应的可靠探索参数。

同样为减小信令开销，如表5所示，对于某些特定的任务，可以预先设置好任务和可靠探索等级和性能指标的映射表，这样，在进行某个任务的探索时，收发端不需要传输可靠探索等级和行性能指标，而采用表中该任务对应的参数进行探索。

表4和表5是可靠探索等级初始表的示例。

表4

可靠探索等级	参数σ	总探索次数N
Level 0	0.01	10000
Level 1	0.001	1000
Level 2	0.0001	100
…	…

表5

可靠探索	性能指标	可靠探索等级
1.切换	SNR	Level 0
2.UE配对	频谱效率	Level 1
3.功率控制	频谱效率	Level 2
…	…	…

需要说明的是，图3至图8所示的方法可以由终端、接入网设备、或核心网设备来执行，也可以由终端、接入网设备、或核心网设备中的模块或单元(例如，芯片、电路、片上系统(system on chip，SOC)等)来执行，下面以由终端、接入网设备、或核心网设备来执行为例进行描述。

在本申请中，终端、接入网设备、核心网设备之间可以交互决策探索表、多步决策探索表、可靠探索参数表、用于可靠探索的神经网络参数等。

1)由终端选择决策

即图3至8所示的方法由终端来执行。

在步骤901中，接入网设备向终端发送第一消息，用于查询终端的可靠探索能力。相应地，终端接收来自接入网设备的第一消息。

这里的可靠探索能力可以理解为是否支持图3至图8所示的用于选择决策的方法。

可选地，上述的第一消息可以为系统信息块(system information block，SIB)或主信息块(master information block，MIB)消息。第一消息可以包括ueCapability字段、reliableSearchFlg字段、reliableLevel字段中的至少一个。

在步骤902中，终端向接入网设备发送第二消息，向接入网设备反馈自己的可靠探索能力。相应地，接入网设备接收来自终端的第二消息。

在步骤903中，若终端反馈其具备可靠探索能力，接入网设备向核心网设备发送第三消息，用于请求为终端注册可靠探索能力。相应地，核心网设备接收来自接入网设备的第三消息。

在步骤904中，核心网设备完成注册，并向接入网设备发送第四消息，用于指示可靠探索能力注册完成。相应地，接入网设备接收核心网设备发送的第四消息。

在步骤905中，接入网设备向终端发送第五消息，用于指示可靠探索能力注册完成。相应地，终端接收接入网设备发送的第五消息。

这样就完成了在核心网设备为终端注册可靠探索能力。

可选地，核心网设备还可以对终端的可靠探索能力进行鉴权，确定是否允许终端探索决策。即在步骤904之前，还可以执行步骤906，当核心网设备允许终端探索决策时才执行步骤904，否则向终端反馈注册异常或注册失败等。

可选地，接入网设备还可以向终端查询探索决策使用的参数，以便接入网设备估计决策探索所需的时间，以便进行合理处理。具体地，可以执行步骤907-908。

在步骤907中，接入网设备向终端发送第六消息，用于查询探索决策使用的参数。

在步骤908中，在接收到第六消息后，终端可以向接入网设备发送第七消息，用于反馈探索决策使用的参数。

在一些实现方式中，终端可以从接入网设备获取探索决策所需的参数、通信系统模型、历史信息中的至少部分。例如，终端可以在图9所示的过程中从接入网设备获取上述内容。

2)由接入网设备选择决策

即图3至8所示的方法由接入网设备来执行。

在步骤1001中，终端向接入网设备发送第八消息，用于请求开始决策探索。相应地，接入网设备接收终端发送的第八消息。

可选地，第八消息中可以包括触发决策探索的任务类型、通信系统的模型、神经网络模型参数等中的至少一项。例如，对于切换任务，第八消息的可靠探索任务列表中包括切换任务，可靠探索性能指标包括通信公式、仿真器类型等。

在步骤1002，接入网设备向终端发送第九消息，向终端反馈决策探索开始。

在步骤1003中，接入网设备根据图3至图8所示的方法进行决策探索，并将探索结果发送给终端。相应地，终端接收接入网设备发送的探索结果。

需要说明的是，对于多步探索，本申请不限定接入网设备反馈探索结果的方式。例如，接入网设备可以待多步探索结束后一次性将全部探索结果发送给终端。又例如，接入网设备可以每执行一步探索向终端发送一次探索结果，通过多次消息将多步探索的结果发送给终端。

在步骤1004中，终端在接收到所需探索结果后，向接入网设备发送第十消息，用于请求结束多步探索。相应地，接入网设备接收终端发送的第十消息。

在步骤1005中，接入网设备向终端发送第十一消息，通知终端决策探索结束。

在一些实现方式中，接入网设备可以根据任务类型，从其它接入网设备或核心网设备获取探索决策相关的支持信息，例如，通信模型需要的仿真器，仿真条件等、同类任务下的历史信息等。

例如，如图10所示：

在步骤1006中，接入网设备可以在接收到终端发送的第八消息后，向其他接入网设备发送第十二消息，用于获取通信模型需要的仿真器、仿真条件等。

在步骤1007中，接入网设备可以在接收到终端发送的第八消息后，向其他核心网设备发送第十三消息，用于获取同类任务下的历史信息。

在步骤1008中，其他接入网设备在接收到第十二消息后，向接入网设备发送第十四消息，用于反馈通信模型需要的仿真器、仿真条件等。

在步骤1009中，核心网设备在接收到第十三消息后，向接入网设备发送第十五消息，用于反馈同类任务下的历史信息。

可以理解的是，为了实现上述实施例中功能，终端、接入网设备、以及核心网设备包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的单元及方法步骤，本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用场景和设计约束条件。

图11和图12为本申请的实施例提供的可能的选择决策的装置的结构示意图。这些装置可以用于实现上述方法实施例中终端、接入网设备、或核心网设备的功能，因此也能实现上述方法实施例所具备的有益效果。在本申请的实施例中，该选择决策的装置可以是如图1所示的终端120或终端130，也可以是如图1所示的无线接入网设备110，还可以是核心网设备，还可以是应用于终端、接入网设备、或核心网设备的模块(如芯片)。

如图11所示，装置1100包括处理单元1110和收发单元1120。

当装置1100用于实现终端的功能时：处理单元1110可以用于执行步骤310-350，收发单元1120可以用于执行步骤901-902、905、907-908、1001-1005。

当装置1100用于实现接入网设备的功能时：处理单元1110可以用于执行步骤310-350，收发单元1120可以用于执行步骤901-905、907--908、1001、1006-1009。

当装置1100用于实现核心网设备的功能时：处理单元1110可以用于执行步骤906，收发单元1120可以用于执行步骤903-904、1007、1009。

有关上述处理单元1110和收发单元1120更详细的描述可以直接参考方法实施例中相关描述直接得到，这里不加赘述。

如图12所示，装置1200包括处理器1210和接口电路1220。处理器1210和接口电路1220之间相互耦合。可以理解的是，接口电路1220可以为收发器或输入输出接口。可选的，装置1200还可以包括存储器1230，用于存储处理器1210执行的指令或存储处理器1210运行指令所需要的输入数据或存储处理器1210运行指令后产生的数据。

当装置1200用于实现方法侧实施例中的方法时，处理器1210用于执行上述处理单元1110的功能，接口电路1220用于执行上述收发单元1120的功能。

当上述装置为应用于终端的芯片时，该终端芯片实现上述方法实施例中终端的功能。例如，该终端芯片从终端中的其它模块(如射频模块或天线)接收信息，该信息是其他设备发送给终端的；或者，该终端芯片向终端中的其它模块(如射频模块或天线)发送信息，该信息是终端发送给其他设备的。

当上述装置为应用于接入网设备的芯片时，该接入网设备芯片实现上述方法实施例中接入网设备的功能。例如，该接入网设备的芯片从接入网设备中的其它模块(如射频模块或天线)接收信息，该信息是其他设备发送给接入网设备的；或者，该接入网设备的芯片向接入网设备中的其它模块(如射频模块或天线)发送信息，该信息是接入网设备发送给其他设备的。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其它可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(Random Access Memory，RAM)、闪存、只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于终端、接入网设备或核心网设备中。当然，处理器和存储介质也可以作为分立组件存在于终端、接入网设备或核心网设备中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，DVD；还可以是半导体介质，例如，固态硬盘(solid state disk，SSD)。

在本申请的各个实施例中，如果没有特殊说明以及逻辑冲突，不同的实施例之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。在本申请的文字描述中，字符“/”，一般表示前后关联对象是一种“或”的关系；在本申请的公式中，字符“/”，表示前后关联对象是一种“相除”的关系。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种用于选择决策的方法，其特征在于，包括：

获取通信系统的状态信息；

根据所述状态信息，确定M个第一决策中每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，所述M个第一决策为在所述状态信息下可探索的决策，M为正整数；

根据所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，从所述M个第一决策中确定目标第一决策。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定K个第二决策中每个第二决策对应的性能和/或所述每个第二决策被探索过的次数，所述K个第二决策为在选择所述目标第一决策后可探索的决策，K为正整数；

根据所述每个第二决策对应的性能和/或所述每个第二决策被探索过的次数，从所述K个第二决策中确定目标第二决策。
根据权利要求1或2所述的方法，其特征在于，所述根据所述状态信息，确定M个第一决策中每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，包括：

循环执行以下步骤N次，得到所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，N为大于1的整数：

根据所述每个第一决策当前对应的性能和/或所述每个第一决策当前被探索过的次数，从所述M个第一决策中选择待探索的第一决策；

根据所述状态信息、以及所述通信系统的模型，更新所述待探索的第一决策对应的性能；和/或，在所述待探索的第一决策的被探索次数上加1。
根据权利要3所述的方法，其特征在于，所述方法还包括：

根据K个第二决策中每个第二决策当前对应的性能和/或所述每个第二决策当前被探索过的次数，从所述K个第二决策中选择待探索的第二决策，所述K个第二决策为在选择所述待探索的第一决策后可探索的决策；

根据所述状态信息、以及所述通信系统的模型，更新所述待探索的第二决策对应的性能；和/或，在所述待探索的第二决策的被探索次数上加1；

根据所述待探索的第二决策对应的性能更新所述待探索的第一决策对应的性能；和/或，在所述待探索的第一决策被探索次数上加1。
根据权利要求3或4所述的方法，其特征在于，所述根据所述每个第一决策当前对应的性能和/或所述每个第一决策当前被探索过的次数，从所述M个第一决策中选择待探索的第一决策，包括：

根据所述每个第一决策当前对应的性能和/或所述每个第一决策当前被探索过的次数、以及所述每个第一决策的探索系数，从所述M个第一决策中选择所述待探索的第一决策，所述探索系数用于控制选择决策时的倾向。
根据权利要求5所述的方法，其特征在于，所述根据所述每个第一决策当前对应的性能和/或所述每个第一决策当前被探索过的次数、以及所述每个第一决策的探索系数，从所述M个第一决策中选择所述待探索的第一决策，包括：

根据y ₁＝x ₁+C ₁·b ₁，从所述M个第一决策中选择所述待探索的第一决策，所述待探索的第一决策对应的y ₁的取值最大，其中，x ₁为所述每个第一决策当前对应的性能的函数，C ₁为所述每个第一决策的探索系数，且C ₁为常数，b ₁为所述每个第一决策当前被探索过的次数的倒数的函数。
根据权利要求6所述的方法，其特征在于，所述根据y ₁＝x ₁+C ₁·b ₁，从所述M个第一决策中选择所述待探索的第一决策，包括：

根据
从所述M个第一决策中确定所述待探索的第一决策，其中，X _1d为所述M个第一决策中第d个第一决策当前对应的性能，N ₁为所述M个第一决策当前被探索的总次数，N _1d为所述第d个第一决策当前被探索的次数。
根据权利要求1或2所述的方法，其特征在于，所述根据所述状态信息，确定M个第一决策中每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，包括：

根据所述状态信息、以及历史信息，确定所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，所述历史信息包括在所述状态信息下的所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数。
根据权利要求1至8中任一项所述的方法，其特征在于，所述根据所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，从所述M个第一决策中确定目标第一决策，包括：

根据所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数、以及所述每个第一决策的探索系数，从所述M个第一决策中确定所述目标第一决策，所述探索系数用于控制选择决策时的倾向。
根据权利要求9所述的方法，其特征在于，所述根据所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数、以及所述每个第一决策的探索系数，从所述M个第一决策中选择所述目标第一决策，包括：

根据y ₂＝x ₂+C ₂·b ₂，从所述M个第一决策中选择所述目标第一决策，所述目标第一决策对应的y ₂的取值最大，其中，x ₂为所述每个第一决策对应的性能的函数，C ₂为所述每个第一决策的探索系数，b ₂为所述每个第一决策被探索过的次数的倒数的函数。
根据权利要求10所述的方法，其特征在于，所述根据y ₂＝x ₂+C ₂·b ₂，从所述M个第一决策中选择所述目标第一决策，包括：

根据
从所述M个第一决策中确定目标第一决策，其中，X _2d为所述M个第一决策中第d个第一决策对应的性能，N ₂为所述M个第一决策被探索的总次数，N _2d为所述第d个第一决策被探索的次数，C ₂为常数、C ₂随N _2d变化或者C ₂由神经网络模型确定。
根据权利要求11所述的方法，其特征在于，若C ₂随N _2d变化，当N _2d小于预设阈值时，C ₂为0。
根据权利要求12所述的方法，其特征在于，C ₂满足
其中，N _t为所述预设阈值，且N _t＝σ·N ₂，σ为预设常数。
根据权利要求13所述的方法，其特征在于，所述方法还包括：

根据所述状态信息、以及所述目标第一决策，对所述神经网络模型进行训练，所述神经网络模型用于输出C _r。
根据权利要求13或14所述的方法，其特征在于，所述方法还包括：

获取探索决策所使用的参数，所述参数包括性能指标、N ₂、C ₂、C _r，σ，N _t中的至少一个。
根据权利要求15所述的方法，其特征在于，所述获取探索决策所使用的参数，包括：

根据任务类型，获取所述参数。
根据权利要求1至16中任一项所述的方法，其特征在于，所述方法还包括：

获取支持信息，所述支持信息用于确定所述第一决策对应的性能，所述支持信息包括所述通信系统的模型的仿真器、仿真条件、历史信息中的至少一个，所述历史信息包括在所述通信系统的不同状态下的每个决策对应的性能和/或所述每个决策被探索过的次数。
根据权利要求13至16中任一项所述的方法，其特征在于，所述方法还包括：

接收接入网设备发送的第六消息，所述第六消息用于查询探索决策所使用的参数，所述参数包括N ₂、C ₂、C _r，σ，N _t中的至少一个；

向接入网设备发送第七消息，所述第七消息用于指示所述参数。
根据权利要求1至18中任一项所述的方法，其特征在于，所述方法还包括：

接收接入网设备发送的第一消息，所述第一消息用于查询是否具备探索决策的能力；

向接入网设备发送第二消息，所述第二消息用于指示具备探索决策的能力；

接收接入网设备发送的第五消息，所述第五消息用于指示完成在核心网设备的探索决策能力的注册。
根据权利要求1至17中任一项所述的方法，其特征在于，所述方法还包括：

接收终端发送的第八消息，所述第八消息用于请求开始探索决策；

向终端发送探索结果，所述探索结果包括所述目标第一决策的信息；

接收终端发送的第十消息，所述第十消息用于请求结束探索决策。
一种用于选择决策的方法，其特征在于，包括：

向终端发送第一消息，所述第一消息用于查询是否具备探索决策的能力；

接收所述终端发送的第二消息，所述第二消息用于指示具备探索决策的能力；

向核心网设备发送第三消息，所述第三消息用于请求注册探索决策能力；

接收所述的核心网设备发送的第四消息，所述第四消息用于指示完成探索决策能力的注册；

向所述终端发送第五消息，所述第五消息用于指示完成在所述核心网设备的探索决策能力的注册。
根据权利要求21所述的方法，其特征在于，所述方法还包括：

向所述终端发送第六消息，所述第六消息用于查询探索决策所使用的参数；

接收所述终端发送的第七消息，所述第七消息用于指示所述参数；

根据所述参数，估计探索决策的时间。
根据权利要求21或22所述的方法，其特征在于，所述方法还包括：

向所述终端发送支持信息，所述支持信息包括通信系统模型的仿真器、仿真条件、历史信息中的至少一个，所述历史信息包括在通信系统的不同状态下的每个决策对应的性能和/或所述每个决策被探索过的次数。
一种用于选择决策的方法，其特征在于，包括：

向接入网设备发送第八消息，所述第八消息用于请求开始探索决策；

接收所述接入网设备发送的探索结果；

向所述接入网设备发送第十消息，所述第十消息用于请求结束探索决策。
一种用于选择决策的方法，其特征在于，包括：

接收接入网设备发送的第十三消息，所述第十三消息用于请求历史信息，所述历史信息包括在通信系统的不同状态下的每个决策对应的性能和/或所述每个决策被探索过的次数；

向接入网设备发送第十五消息，所述第十五消息用于指示所述历史信息。
根据权利要求25所述的方法，其特征在于，所述方法还包括：

接收所述接入网设备发送的第三消息，所述第三消息用于请求为终端注册探索决策能力；

向所述接入网设备发送第四消息，所述第四消息用于指示完成探索决策能力的注册。
根据权利要求25或26所述的方法，其特征在于，在向所述接入网设备发送第四消息之前，所述方法还包括：

确定允许所述终端探索决策。
一种通信装置，其特征在于，所述装置包括：

处理单元，用于获取通信系统的状态信息；根据所述状态信息，确定M个第一决策中每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，所述M个第一决策为在所述状态信息下可探索的决策，M为正整数；根据所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，从所述M个第一决策中确定目标第一决策。
根据权利要求28所述的装置，其特征在于，

所述处理单元还用于确定K个第二决策中每个第二决策对应的性能和/或所述每个第二决策被探索过的次数，所述K个第二决策为在选择所述目标第一决策后可探索的决策，K为正整数；根据所述每个第二决策对应的性能和/或所述每个第二决策被探索过的次数，从所述K个第二决策中确定目标第二决策。
根据权利要求28或29所述的装置，其特征在于，

所述处理单元具体用于：循环执行以下步骤N次，得到所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，N为大于1的整数：根据所述每个第一决策当前对应的性能和/或所述每个第一决策当前被探索过的次数，从所述M个第一决策中选择待探索的第一决策；根据所述状态信息、以及所述通信系统的模型，更新所述待探索的第一决策对应的性能；和/或，在所述待探索的第一决策的被探索次数上加1。
根据权利要求30所述的装置，其特征在于，

所述处理单元还用于：根据K个第二决策中每个第二决策当前对应的性能和/或所述每个第二决策当前被探索过的次数，从所述K个第二决策中选择待探索的第二决策，所述K个第二决策为在选择所述待探索的第一决策后可探索的决策；根据所述状态信息、以及所述通信系统的模型，更新所述待探索的第二决策对应的性能；和/或，在所述待探索的第二决策的被探索次数上加1；根据所述待探索的第二决策对应的性能更新所述待探索的第一决策对应的性能；和/或，在所述待探索的第一决策被探索次数上加1。
根据权利要求30或31所述的装置，其特征在于，

所述处理单元具体用于：根据所述每个第一决策当前对应的性能和/或所述每个第一决策当前被探索过的次数、以及所述每个第一决策的探索系数，从所述M个第一决策中选择所述待探索的第一决策，所述探索系数用于控制选择决策时的倾向。
根据权利要求32所述的装置，其特征在于，

所述处理单元具体用于：根据y ₁＝x ₁+C ₁·b ₁，从所述M个第一决策中选择所述待探索的第一决策，所述待探索的第一决策对应的y ₁的取值最大，其中，x ₁为所述每个第一决策当前对应的性能的函数，C ₁为所述探索系数，且C ₁为常数，b ₁为所述每个第一决策当前被探索过的次数的倒数的函数。
根据权利要求33所述的装置，其特征在于，

所述处理单元具体用于：根据
从所述M个第一决策中确定所述待探索的第一决策其中，X _1d为所述M个第一决策中第d个第一决策当前对应的性能，N ₁为所述M个第一决策当前被探索的总次数，N _1d为所述第d个第一决策当前被探索的次数。
根据权利要求28或29所述的装置，其特征在于，

所述处理单元具体用于：根据所述状态信息、以及历史信息，确定所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数，所述历史信息包括在所述状态信息下的所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数。
根据权利要求28至35中任一项所述的装置，其特征在于，

所述处理单元具体用于：根据所述每个第一决策对应的性能和/或所述每个第一决策被探索过的次数、以及所述每个第一决策的探索系数，从所述M个第一决策中确定所述目标第一决策，所述探索系数用于控制选择决策时的倾向。
根据权利要求36所述的装置，其特征在于，

所述处理单元具体用于：根据y ₂＝x ₂+C ₂·b ₂，从所述M个第一决策中选择所述目标第一决策，所述目标第一决策对应的y ₂的取值最大，其中，x ₂为所述每个第一决策对应的性能的函数，C ₂为所述探索系数，b ₂为所述每个第一决策被探索过的次数的倒数的函数。
根据权利要求37所述的装置，其特征在于，

所述处理单元具体用于：根据
从所述M个第一决策中确定目标第一决策，其中，X _2d为所述M个第一决策中第d个第一决策对应的性能，N ₂为所述M个第一决策被探索的总次数，N _2d为所述第d个第一决策被探索的次数，C ₂为常数、C ₂随N _2d变化或者C ₂由神经网络模型确定。
根据权利要求38所述的装置，其特征在于，

若C ₂随N _2d变化，当N _2d小于预设阈值时，C ₂为0。
根据权利要求39所述的装置，其特征在于，

C ₂满足
其中，N _t为所述预设阈值，且N _t＝σ·N ₂，σ为预设常数。
根据权利要求40所述的装置，其特征在于，

所述处理单元还用于：根据所述状态信息、以及所述目标第一决策，对所述神经网络模型进行训练，所述神经网络模型用于输出C _r。
根据权利要求40或41所述的装置，其特征在于，

所述处理单元还用于：获取探索决策所使用的参数，所述参数包括性能指标、N ₂、C ₂、C _r，σ，N _t中的至少一个。
根据权利要求42所述的装置，其特征在于，

所述处理单元具体用于：根据任务类型，获取所述参数。
根据权利要求28至43中任一项所述的装置，其特征在于，

所述处理单元还用于：获取支持信息，所述支持信息用于确定所述第一决策对应的性能，所述支持信息包括所述通信系统的模型的仿真器、仿真条件、历史信息中的至少一个，所述历史信息包括在所述通信系统的不同状态下的每个决策对应的性能和/或所述每个决策被探索过的次数。
根据权利要求40至43中任一项所述的装置，其特征在于，

所述装置还包括收发单元，用于接收接入网设备发送的第六消息，所述第六消息用于查询探索决策所使用的参数，所述参数包括性能指标、N ₂、C ₂、C _r，σ，N _t中的至少一个；向接入网设备发送第七消息，所述第七消息用于指示所述参数。
根据权利要求45所述的装置，其特征在于，

所述收发单元还用于：接收接入网设备发送的第一消息，所述第一消息用于查询是否具备探索决策的能力；向接入网设备发送第二消息，所述第二消息用于指示具备探索决策的能力；接收接入网设备发送的第五消息，所述第五消息用于指示完成在核心网设备的探索决策能力的注册。
根据权利要求45或46所述的装置，其特征在于，

所述收发单元还用于：接收终端发送的第八消息，所述第八消息用于请求开始探索决策；向终端发送探索结果，所述探索结果包括所述目标第一决策的信息；接收终端发送的第十消息，所述第十消息用于请求结束探索决策。
一种通信的装置，其特征在于，所述装置包括：

收发单元，用于向终端发送第一消息，所述第一消息用于查询是否具备探索决策的能力；接收所述终端发送的第二消息，所述第二消息用于指示具备探索决策的能力；向核心网设备发送第三消息，所述第三消息用于请求注册探索决策能力；接收所述的核心网设备发送的第四消息，所述第四消息用于指示完成探索决策能力的注册；向所述终端发送第五消息，所述第五消息用于指示完成在所述核心网设备的探索决策能力的注册。
根据权利要求48所述的装置，其特征在于，

所述收发单元还用于向所述终端发送第六消息，所述第六消息用于查询探索决策所使用的参数；接收所述终端发送的第七消息，所述第七消息用于指示所述参数；

所述装置还包括处理单元，用于根据所述参数，估计探索决策的时间。
根据权利要求48或49所述的装置，其特征在于，

所述收发单元还用于向所述终端发送支持信息，所述支持信息包括通信系统模型的仿真器、仿真条件、历史信息中的至少一个，所述历史信息包括在通信系统的不同状态下的每个决策对应的性能和/或所述每个决策被探索过的次数。
一种通信的装置，其特征在于，所述装置包括：

收发单元，用于向接入网设备发送第八消息，所述第八消息用于请求开始探索决策；接收所述接入网设备发送的探索结果；向所述接入网设备发送第十消息，所述第十消息用于请求结束探索决策。
一种通信装置，其特征在于，所述装置包括：

收发单元，用于接收接入网设备发送的第十三消息，所述第十三消息用于请求历史信息，所述历史信息包括在通信系统的不同状态下的每个决策对应的性能和/或所述每个决策被探索过的次数；向接入网设备发送第十五消息，所述第十五消息用于指示所述历史信息。
根据权利要求52所述的装置，其特征在于，

所述收发单元还用于：接收所述接入网设备发送的第三消息，所述第三消息用于请求为终端注册探索决策能力；向所述接入网设备发送第四消息，所述第四消息用于指示完成探索决策能力的注册。
根据权利要求52或53所述的装置，其特征在于，

所述装置还包括处理单元，用于在向所述接入网设备发送第四消息之前，确定允许所述终端探索决策。
一种选择决策的装置，其特征在于，包括至少一个处理器，所述至少一个处理器与至少一个存储器耦合，所述至少一个处理器用于执行所述至少一个存储器中存储的计算机程序或指令，以使所述装置执行如权利要求1至27中任一项所述的方法。
一种芯片，其特征在于，包括逻辑电路和通信接口，所述通信接口，用于接收待处理的数据和/或信息，所述逻辑电路用于执行如权利要求1至27中任一项所述的数据和/或信息处理，以及，所述通信接口还用于输出所述逻辑电路得到处理结果。
一种计算机可读存储介质，其特征在于，存储有计算机指令，当计算机指令在计算机上运行时，如权利要求1至27中任一项所述的方法被实现。
一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序或指令，当所述计算机程序或指令在计算机上运行时，使得如权利要求1至27中任一项所述的方法被执行。
一种计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得如权利要求1至27中任一项所述的方法被执行。
一种无线通信系统，其特征在于，所述无线通信系统包括如权利要求28至54中任一项所述的装置。