WO2021164507A1 - 调度方法、调度算法的训练方法及相关系统、存储介质 - Google Patents

调度方法、调度算法的训练方法及相关系统、存储介质 Download PDF

Info

Publication number
WO2021164507A1
WO2021164507A1 PCT/CN2021/073764 CN2021073764W WO2021164507A1 WO 2021164507 A1 WO2021164507 A1 WO 2021164507A1 CN 2021073764 W CN2021073764 W CN 2021073764W WO 2021164507 A1 WO2021164507 A1 WO 2021164507A1
Authority
WO
WIPO (PCT)
Prior art keywords
network
sub
value
policy
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/CN2021/073764
Other languages
English (en)
French (fr)
Inventor
王坚
徐晨
皇甫幼睿
李榕
王俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to EP21757207.2A priority Critical patent/EP4080974B1/en
Publication of WO2021164507A1 publication Critical patent/WO2021164507A1/zh
Priority to US17/889,499 priority patent/US12262400B2/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/12Wireless traffic scheduling
    • H04W72/1263Mapping of traffic onto schedule, e.g. scheduled allocation or multiplexing of flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0226Traffic management, e.g. flow control or congestion control based on location or mobility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/0231Traffic management, e.g. flow control or congestion control based on communication conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/20Control channels or signalling for resource management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Definitions

  • This application relates to the field of communication technology, and in particular to a scheduling method, a scheduling algorithm training method, a scheduling control system, a scheduling algorithm training system, and a storage medium.
  • MAC layer scheduling mainly solves the problems of time-frequency resource allocation, modulation and coding strategy (Modulation and Coding Scheme, MCS) selection, user pairing, and precoding. Through scheduling to achieve a compromise between system throughput and fairness.
  • MCS Modulation and Coding Scheme
  • Markov Decision Process is a mathematical model for analyzing decision problems. As shown in Figure 1, it is assumed that the environment has a Markov property (the conditional probability distribution of the future state of the environment only depends on the current state). The decision maker periodically observes the state of the environment and makes decisions based on the current state of the environment. Get new status and rewards after interacting with the environment.
  • Reinforcement learning is a field in machine learning that can be used to solve the Markov decision process described above.
  • reinforcement learning emphasizes that the agent obtains the maximum expected benefits through the interaction process with the environment, and learns to obtain the best behavior.
  • the agent obtains the current state s by observing the environment, and decides an action a according to a certain rule ⁇ to feed back to the environment, and the environment feeds back the reward r or punishment obtained after the action is executed to the agent.
  • the agent learns to make optimal decisions based on the environment.
  • the prior art adopts a deep reinforcement learning DRL algorithm.
  • the algorithm uses the interaction between the agent in DRL and the wireless transmission environment to continuously update its own parameters to obtain better decision-making strategies.
  • the agent first obtains the current state of the communication system, and makes a decision based on this state; after executing the decision, the communication system enters the next state, and at the same time feeds back benefits.
  • the agent adjusts its own decision-making parameters according to the income situation.
  • the agent interacts with the environment iteratively, continuously adjusts its parameters to obtain greater benefits, and finally converges to obtain a better scheduling strategy.
  • an embodiment of the present application provides a scheduling method, the method is applied to a scheduling control system, the scheduling control system includes K network devices, K is an integer greater than 1, and the method includes:
  • the first network device generates first scheduling information based on the target state information of the first area and the first target sub-policy network, where the first target sub-policy network is K target sub-policy networks, the A target sub-policy network corresponding to the first network device, where the K target sub-policy networks correspond to the K network devices in a one-to-one correspondence;
  • the first network device delivers the first scheduling information to the terminals in the first area, and the first scheduling information is used by the terminals in the first area for data transmission.
  • the embodiment of the present application is based on the first network device among the K network devices obtaining the target state information of the first area, and then obtaining the scheduling information based on the target state information and the first target sub-policy network corresponding to the first network device, and then The scheduling information is delivered to the terminals in the first area, so that the terminals in the first area perform data transmission according to the scheduling information.
  • each network device performs scheduling control corresponding to its own strategy network, so that multi-agent scheduling control is implemented, and the performance of the scheduling control system is improved.
  • the feasibility of the scheduling control scheme is improved.
  • the method before the first network device generates the first scheduling information based on the target state information of the first area and the first target sub-policy network, the method further includes:
  • the first network device performs iterative training on the first initial sub-policy network to obtain the first target sub-policy network
  • the iterative training of the first initial sub-policy network by the first network device to obtain the first target sub-policy network includes:
  • the training is stopped when the value of the performance parameter is not lower than the preset value.
  • the embodiments of the present application do not limit the foregoing conditions.
  • the embodiment of the present application may also stop training when the value of the performance parameter is not higher than the preset value. For example, a new preset value is formed by negating the above preset value.
  • This application can also stop the training when the number of iterative training reaches the preset number. Or, stop training when the number of parameter updates reaches a preset number, etc.
  • the embodiment of the present application may also stop training when the value of the loss function corresponding to the policy network is lower than a preset threshold.
  • the first sub-network policy evaluation value W i based on the state information for each of the K target network device covered by the K region, the output K of the K sub-network policy corresponding to the network device and the K feedback gains are regions corresponding to the input value Q i obtained by processing network, wherein said feedback gains K corresponding to the terminal region within the region corresponding to the K, respectively according to a second region of the K
  • the scheduling information is determined after data transmission.
  • the network q i is processed, wherein the feedback benefit corresponding to the first area is determined after the terminal in the first area performs data transmission according to the second scheduling information corresponding to the first area.
  • the scheduling control system further includes a centralized network element device, and the first network device generates a first schedule based on the target state information of the first area and a first target sub-policy network Before information, the method also includes:
  • the first network device receives the parameters of the first target policy sub-network sent by the centralized network element device, where the parameters of the K target sub-policy networks are all the same, and the centralized network element device is Core network equipment or base station centralized unit CU equipment.
  • an embodiment of the present application also provides a method for training a scheduling algorithm, the method is applied to a scheduling algorithm training system, the scheduling algorithm training system includes K network devices, K is an integer greater than 1; the method include:
  • the first network device performs iterative training on the first initial sub-policy network according to the training data to obtain the first target sub-policy network; wherein, the first initial sub-policy network is K initial sub-policy networks, The initial sub-policy network corresponding to the first network device; the first target sub-policy network is the target sub-policy network corresponding to the first network device among the K target sub-policy networks; the K initial sub-policies The network and the K target sub-policy networks respectively correspond to the K network devices in a one-to-one correspondence.
  • the training data includes the target state information Si +1 of the first area, wherein the first area is the area covered by the first network device, and the first network device pairs according to the training data
  • the first initial sub-strategy network performs iterative training to obtain the first target sub-strategy network, including:
  • the K network devices respectively corresponding to each sub-network policy the feedback gains K are inputted to the area corresponding to the value Q i obtained by processing network, wherein said feedback gains K corresponding to the terminal region within the region corresponding to the K regions are respectively based on the K
  • the second scheduling information is determined after data transmission.
  • the embodiment of the present application is trained based on a multi-agent MARL architecture composed of a central value network and a distributed strategy network to obtain a target value network and multiple distributed target strategy networks.
  • the distributed target strategy network can be used for scheduling of network devices, avoiding the completely central scheduling of a single agent DRL, and improving the feasibility of the scheme.
  • the training is used to obtain a lower a first sub-network policy; wherein the first evaluation value W i sub-network policy is based on a first sub-network value q i obtained by processing the first sub-network value q i is based on the time It is obtained from the trained first sub-value network, the first sub-value network q i is the sub-value network corresponding to the first network device among the K sub-value networks, and the K sub-value networks and the K networks There is a one-to-one correspondence between devices.
  • the network q i is processed, wherein the feedback benefit corresponding to the first area is determined after the terminal in the first area performs data transmission according to the second scheduling information corresponding to the first area.
  • the embodiment of the present application is trained based on a multi-agent MARL architecture composed of a distributed value network and a distributed strategy network, and multiple target value networks and multiple distributed target strategy networks are obtained.
  • the distributed target strategy network can be used for scheduling of network devices, avoiding the completely central scheduling of a single agent DRL, and improving the feasibility of the scheme.
  • the first network device determines the first sub-value network q i as the first target sub-value network, wherein the first sub-value network q i is obtained based on the first sub-value network of the previous training,
  • the first sub-value network q i is a sub-value network corresponding to the first network device among the K sub-value networks, and the K sub-value networks have a one-to-one correspondence with the K network devices.
  • the first network device information of the target state S i of the first region and the target status information S i + 1, the first network the output device corresponding to a first sub-network policy of W i, feedback gains corresponding to the first area information and the value of other K-1 sub-network other than the first sub-network value q i are input to the first a sub-network value q i is processed to obtain an evaluation value of the first sub-network policy W i, wherein said feedback gains of the first region corresponding to the first region within the first terminal area in accordance with The corresponding second scheduling information is determined after data transmission; the first network device adjusts the parameters in the first sub-value network q i to obtain the first sub-value network used for the next training.
  • the scheduling algorithm training system further includes a centralized network element device, and when the value of the performance parameter is not lower than the preset value, the method further includes:
  • the centralized network element device to the network Q i value determined as a target value of the network, wherein Q i is the value of the network based on a value of the trained network obtained.
  • the centralized network element device collects the target state information of the K areas covered by the K network devices, and the K network devices K corresponding output sub-network policy feedback gains K and the area corresponding to the value of the network are input to Q i are processed to obtain the evaluation value of the K, wherein the K value of the K subbands evaluation One-to-one correspondence between policy networks;
  • the centralized network element device sends the K evaluation values to the K network devices respectively;
  • the centralized network element adjusting the value of the device parameter Q i, to obtain the value of the network for the next training.
  • the centralized network element device determines the first sub-value network q i as the first target sub-value network, wherein the first sub-value network q i is obtained based on the first sub-value network of the previous training
  • the first sub-value network q i is a sub-value network corresponding to the first network device among the K sub-value networks, and the K sub-value networks have a one-to-one correspondence with the K network devices.
  • the centralized network element device adjusts the parameters in the first sub-value network q i to obtain the first sub-value network used for the next training.
  • an embodiment of the present application also provides a dispatch control system.
  • the dispatch control system includes K network devices, and K is an integer greater than 1, wherein the first network device is any of the K network devices.
  • the first network device is used to:
  • Target state information of a first area where the first area is an area covered by the first network device, and the target state information includes network state information and user data packet buffer information;
  • performing iterative training on the first initial sub-policy network to obtain the first target sub-policy network specifically includes:
  • the first network device is configured to:
  • the first evaluation value W i sub-network policy based on status information of each of the K target network device covered by the K region, the output K K corresponding network equipment and the network sub-strategies K regions corresponding to said feedback gains are input to the value Q i obtained by processing network, wherein the area corresponding to the K terminal of the feedback gains in the K region based on the region corresponding to each of the K
  • the second scheduling information is determined after data transmission.
  • the network q i is processed, wherein the feedback benefit corresponding to the first area is determined after the terminal in the first area performs data transmission according to the second scheduling information corresponding to the first area.
  • the scheduling control system further includes a centralized network element device, and before the first scheduling information is generated based on the target state information of the first area and the first target sub-policy network, the The first network device is also used for:
  • the centralized network element device is a core network device or a centralized base station Type unit CU equipment.
  • an embodiment of the present application also provides a scheduling algorithm training system.
  • the scheduling algorithm training system includes K network devices, K is an integer greater than 1, and the first network device is any of the K network devices.
  • the first network device is used to:
  • the first initial sub-policy network is K initial sub-policy networks, and the first network device The corresponding initial sub-policy network;
  • the first target sub-policy network is the target sub-policy network corresponding to the first network device among the K target sub-policy networks;
  • the K initial sub-policy networks, the K The target sub-policy networks respectively correspond to the K network devices in a one-to-one correspondence.
  • the K network devices respectively corresponding to each sub-network policy the feedback gains K are inputted to the area corresponding to the value Q i obtained by processing network, wherein said feedback gains K corresponding to the terminal region within the region corresponding to the K regions are respectively based on the K
  • the second scheduling information is determined after data transmission.
  • the first network device when the value of the performance parameter is lower than the preset value, the first network device is configured to:
  • the first evaluation value W i sub-network policy is based on the value of a first sub-processing network q i It is obtained that the first sub-value network q i is obtained based on the first sub-value network of the previous training, and the first sub-value network q i is K sub-value networks, the first network device Corresponding sub-value networks, the K sub-value networks have a one-to-one correspondence with the K network devices.
  • the network q i is processed, wherein the feedback benefit corresponding to the first area is determined after the terminal in the first area performs data transmission according to the second scheduling information corresponding to the first area.
  • the first network device is further configured to:
  • the network q i is a sub-value network corresponding to the first network device among the K sub-value networks, and the K sub-value networks have a one-to-one correspondence with the K network devices.
  • the first network device when the value of the performance parameter is lower than the preset value, the first network device is further configured to:
  • the feedback income corresponding to the first area is determined after the terminals in the first area perform data transmission according to the second scheduling information corresponding to the first area; the first network device adjusts the first Parameters in the sub-value network q i to obtain the first sub-value network for the next training.
  • the scheduling algorithm training system further includes a centralized network element device, and when the value of the performance parameter is not lower than the preset value, the centralized network element device is used for :
  • the value of the network as a target value Q i network, wherein Q i is the value of the network based on a value of the trained network obtained.
  • the centralized network element device When the value of the performance parameter is lower than the preset value, the centralized network element device is used to:
  • the target state information of the K areas covered by the K network devices, the output results of the K sub-policy networks corresponding to the K network devices, and the feedback income corresponding to the K areas are all input to the value network Q i are processed to obtain the evaluation value of the K, wherein the K value and the evaluation of the K sub-one correspondence network policy;
  • the scheduling algorithm training system further includes a centralized network element device, and when the value of the performance parameter is not lower than the preset value, the centralized network element device is used for :
  • the centralized network element device when the value of the performance parameter is lower than the preset value, the centralized network element device is used to:
  • the feedback benefit corresponding to the first area is determined after the terminal in the first area performs data transmission according to the second scheduling information corresponding to the first area;
  • the present application provides a computer storage medium, including computer instructions, which, when the computer instructions are executed on an electronic device, cause the electronic device to execute any of the possible implementation manners and/or the first aspect
  • a method provided by any possible implementation manner In the second aspect, a method provided by any possible implementation manner.
  • the embodiments of the present application provide a computer program product.
  • the computer program product runs on a computer
  • the computer executes any possible implementation manner of the first aspect and/or any possible implementation of the second aspect. Implement the method provided by the mode.
  • the device described in the third aspect, the device described in the fourth aspect, the computer storage medium described in the fifth aspect, or the computer program product described in the sixth aspect provided above are all used to execute the Any of the provided methods and any of the methods provided in the second aspect. Therefore, the beneficial effects that can be achieved can refer to the beneficial effects in the corresponding method, which will not be repeated here.
  • FIG. 3 is a schematic diagram of the deep reinforcement learning used to solve the Markov decision process in the prior art
  • FIG. 4 is a schematic flowchart of a scheduling method provided by an embodiment of the present application.
  • FIG. 5 is a schematic diagram of an application scenario of a scheduling method provided by an embodiment of the present application.
  • FIG. 6 is a schematic diagram of a method for training a scheduling algorithm of a central value network + a distributed policy network provided by an embodiment of the present application;
  • FIG. 7 is a schematic diagram of a scenario where a central value network + a distributed strategy network is deployed in a multi-cell cellular network provided by an embodiment of the present application;
  • FIG. 8 is a schematic diagram of a scenario where a centralized value network + a distributed policy network is deployed in a heterogeneous network according to an embodiment of the present application;
  • FIG. 9A is a schematic diagram of a training method of a distributed value network + distributed policy network scheduling algorithm provided by an embodiment of the present application.
  • FIG. 9B is a schematic diagram of another method for training a scheduling algorithm of a distributed value network + a distributed policy network provided by an embodiment of the present application;
  • FIG. 10 is a schematic diagram of a scenario where a distributed value network + a distributed strategy network is deployed in a multi-cell cellular network provided by an embodiment of the present application;
  • FIG. 11 is a schematic diagram of a scenario where a distributed value network + a distributed policy network is deployed in a heterogeneous network according to an embodiment of the present application;
  • FIG. 12 is a schematic diagram of a method for training a scheduling algorithm of a central value network + a central policy network provided by an embodiment of the present application;
  • FIG. 13 is a schematic diagram of a scenario where a central value network + a central policy network provided in an embodiment of the present application is deployed in a multi-cell cellular network;
  • FIG. 14 is a schematic diagram of a scenario where a central value network + a central policy network is deployed in a heterogeneous network according to an embodiment of the present application.
  • FIG. 4 it is a schematic flowchart of a scheduling method provided by an embodiment of this application.
  • the scheduling method is applied to a scheduling control system
  • the scheduling control system includes K network devices, K is an integer greater than 1, as shown in FIG. 4, which includes steps 401-403, which are specifically as follows:
  • the first network device acquires target status information of a first area, where the first network device is any one of the K network devices, and the first area is covered by the first network device. Area, the target state information includes network state information and user data packet buffer information;
  • the above K network devices may be K base stations.
  • the base station may be a device deployed in a wireless access network to provide a wireless communication function for a mobile station (Mobile Station, MS).
  • the above-mentioned base stations may be various forms of macro base stations, micro base stations (also referred to as small stations), relay stations, access points, and the like.
  • the names of devices with base station functions may be different.
  • they are called evolved NodeB (evolved NodeB, eNB or eNodeB); in the third In the 3rd Generation (3G) system, it is called Node B (Node B) and so on.
  • eNB evolved NodeB
  • 3G 3rd Generation
  • the aforementioned MS may include various handheld devices with wireless communication functions, vehicle-mounted devices, wearable devices, computing devices, or other processing devices connected to a wireless modem.
  • the MS may also be called a terminal. It can also be a subscriber unit (subscriber unit), cellular phone (cellular phone), smart phone (smart phone), wireless data card, personal digital assistant (PDA) computer, tablet computer, wireless modem (modem), Handset (handset), laptop (laptop computer), machine type communication (Machine Type Communication, MTC) terminal, etc.
  • the first network device may be any one of the above K network devices.
  • the first network device may be base station A, and the first area is the area covered by base station A.
  • the foregoing target state information may be state information of each terminal user in a cell covered by the first network device. Or, when there is a macro station, multiple pico stations, and home base stations in a cell covered by a certain base station, the target state information may also be the coverage area of any one of the above-mentioned macro station, pico station, or home base station Registered user status information within.
  • the first network device generates first scheduling information based on the target status information of the first area and the first target sub-policy network, where the first target sub-policy network is K target sub-policy networks, A target sub-policy network corresponding to the first network device, and the K target sub-policy networks have a one-to-one correspondence with the K network devices;
  • the above-mentioned first scheduling information may be, for example, information indicating a manner in which the first terminal in the above-mentioned first area sends data, or the like.
  • the method of sending data refers to specific configurations such as radio resources, modulation and coding strategies, and precoding strategies used when sending data.
  • the first network device may input the target state information of the first area into the first target sub-policy network for processing, and process the output result of the first target sub-policy network to obtain the first Scheduling information.
  • the Actor-Critic algorithm is a commonly used reinforcement learning algorithm.
  • the agent includes two parts: Actor and Critic.
  • Actor is responsible for making decisions based on the environment state and the output of Critic
  • Critic is responsible for evaluating the quality of the decisions made by the Actor based on the state of the environment and benefits.
  • both Actor and Critic can be implemented using deep neural networks.
  • the Actor neural network is responsible for making decisions, it is also called a policy network.
  • Critic neural network output evaluation also called value network.
  • the above-mentioned dispatch control system includes K network devices.
  • Each network device corresponds to a target sub-policy network.
  • the first network device corresponds to the aforementioned first target sub-policy network.
  • a target sub-policy network is deployed on each network device.
  • the above-mentioned first target sub-policy network is deployed on the first network device.
  • the first network device performs iterative training on the first initial sub-policy network to obtain the first target sub-policy network.
  • the first network device obtains a performance parameter according to the target state information Si +1 of the first area, and when the value of the performance parameter is not lower than a preset value, the first network device sets the first sub
  • the iterative training of the first initial sub-policy network by the first network device to obtain the first target sub-policy network includes:
  • the first network device obtains target state information S i of the first area, where i is a positive integer;
  • the first network device delivers the second scheduling information to the terminals in the first area, where the second scheduling information is used by the terminals in the first area for data transmission;
  • the first network device status obtaining a target region of the first information S i + 1, wherein the target state information S i + 1 for the terminal within the first area information according to the second scheduling Obtained after data transmission;
  • the first policy sub-network W i is the first initial policy sub-network.
  • the above description takes the current training as the i-th training.
  • the above-mentioned last training is the i-1th training.
  • the above-mentioned next training is the i+1th training.
  • the training is stopped when the value of the performance parameter is not lower than the preset value.
  • the embodiments of the present application do not limit the foregoing conditions.
  • the embodiment of the present application may also stop training when the value of the performance parameter is not higher than the preset value. For example, a new preset value is formed by negating the above preset value.
  • the first network device performs iterative training on the first initial sub-policy network to obtain the first target sub-policy network, including:
  • the first network device performs M iterations of training on the first initial sub-policy network to obtain the first target sub-policy network, where M is a positive integer;
  • the first network device delivers the second scheduling information to the terminals in the first area, and the second scheduling information is used by the terminals in the first area for data transmission;
  • the first network device status obtaining a target region of the first information S i + 1, wherein the target state information S i + 1 to the terminal in the first region data based on the second scheduling information Obtained after transmission;
  • the first network device according to the target state information S i, the output of the first sub-network policy of W i, the target state information S i + 1 and the first sub-network policy evaluation value of W i adjusting the parameter W i of the network policy first subset, the training to obtain a first sub-network policy for the next W i + 1; wherein the evaluation value of the first sub-network policy based on W i value network Q i obtained by processing, the value of Q i network is based on a value of the trained network to obtain the Q i-1;
  • the training is stopped when the number of iterative training reaches the preset number.
  • the embodiments of the present application do not limit the foregoing conditions.
  • the embodiment of the present application may also stop training when the number of times of updating the parameters reaches a preset number of times. There is no specific limitation here.
  • the first network device performs iterative training on the first initial sub-policy network to obtain the first target sub-policy network, including:
  • A1 obtaining the first network device to the first target region status information S i, where, i is a positive integer;
  • the first network device to the target state information S i input to the first sub-network policy processing W i, and the output of the first sub-network policy W i is processed to obtain a second scheduling information ;
  • the first network device information acquiring the target state S i + 1 of the first region, wherein the target state information S i + 1 of the terminal within the first area information according to the second scheduling Obtained after data transmission;
  • the training is stopped when the value of the loss function corresponding to the policy network is lower than the preset threshold.
  • the embodiment of the present application may also stop training when the value of the loss function corresponding to the policy network is higher than a preset threshold, etc., which is not specifically limited here.
  • the evaluation value of the first sub-network policy W i based on the respective target state information of the network devices K K regions covered (including target state information S i, the target state information S i + 1), the K outputs corresponding to K sub-network device and a network policy corresponding to the region of the K input to the feedback gains are values Q i obtained by processing network, wherein The feedback gains corresponding to the K regions are determined after the terminals in the K regions perform data transmission according to the second scheduling information corresponding to the K regions respectively.
  • the method further includes:
  • the above-mentioned first target sub-strategy network can be obtained by training based on the first target sub-value network.
  • the above K network devices correspond to K target sub-value networks.
  • the aforementioned first network device corresponds to the first target sub-value network.
  • the first network device obtains a performance parameter according to the target state information Si +1 of the first area, and when the value of the performance parameter is not lower than a preset value, the first network device sets the first sub
  • the iterative training of the first initial sub-policy network by the first network device to obtain the first target sub-policy network includes:
  • the first network device obtains target state information S i of the first area, where i is a positive integer;
  • the first network device delivers the second scheduling information to the terminals in the first area, and the second scheduling information is used by the terminals in the first area for data transmission;
  • the first network device information acquiring the target state S i + 1 of the first region, wherein the target state information S i + 1 of the terminal within the first area information according to the second scheduling Obtained after data transmission;
  • the first policy sub-network W i is the first initial policy sub-network.
  • the above description takes the current training as the i-th training.
  • the above-mentioned last training is the i-1th training.
  • the above-mentioned next training is the i+1th training.
  • the first network device performs iterative training on the first initial sub-policy network to obtain the first target sub-policy network, including:
  • the first network device obtains the target state information S i of the first area, where i is a positive integer;
  • the first network device to the target state information S i input to the first sub-network policy processing W i, and outputs the result of the sub-network policy W i is processed to obtain a second scheduling information;
  • the first network device delivers the second scheduling information to the terminals in the first area, and the second scheduling information is used by the terminals in the first area for data transmission;
  • the first network device status obtaining a target region of the first information S i + 1, wherein the target state information S i + 1 to the terminal in the first region data based on the second scheduling information Obtained after transmission;
  • the first network device according to the target state information S i, the output of the first sub-network policy of W i, the target state information S i + 1 and the first sub-network policy evaluation value of W i adjusting the parameter W i of the network policy first subset, the training to obtain a first sub-network policy for the next W i + 1; wherein the evaluation value of the first sub-network policy is W i Obtained by processing based on the first sub-value network q i , the first sub-value network q i is obtained based on the first sub-value network of the previous training, and the first sub-value network q i is K sub-value networks In the value network, sub-value networks corresponding to the first network device, the K sub-value networks and the K network devices have a one-to-one correspondence;
  • the training is stopped when the number of iterative training reaches the preset number.
  • the embodiments of the present application do not limit the foregoing conditions.
  • the embodiment of the present application may also stop training when the number of times of updating the parameters reaches a preset number of times. There is no specific limitation here.
  • the first network device performs iterative training on the first initial sub-policy network to obtain the first target sub-policy network, including:
  • the first network device to the target state information S i input to the first sub-network policy processing W i, and the output of the first sub-network policy W i is processed to obtain a second scheduling information ;
  • the first network device delivers the second scheduling information to the terminals in the first area, and the second scheduling information is used by the terminals in the first area for data transmission;
  • the first network device based on an output result of the target state information S i, the first sub-network policy of W i, the target state information S i + 1 and the first sub-network policy of W i evaluation value, adjusting the parameter W i of the network policy first subset, the training to obtain a first sub-network policy for the next W i + 1; wherein the first sub-network policy evaluation of W i
  • the value is obtained by processing based on the first sub-value network q i
  • the first sub-value network q i is obtained based on the first sub-value network of the previous training
  • the first sub-value network q i is Among the K sub-value networks, the sub-value networks corresponding to the first network device, and the K sub-value networks have a one-to-one correspondence with the K network devices;
  • the first policy sub-network W i is the first initial policy sub-network.
  • the training is stopped when the value of the loss function corresponding to the policy network is lower than the preset threshold.
  • the embodiment of the present application may also stop training when the value of the loss function corresponding to the policy network is higher than a preset threshold, etc., which is not specifically limited here.
  • the first sub-network policy evaluation value W i based on the state of the first target region covered by the first network device information of the state information and the target S I S i + 1, the output of the first sub-network policy to the first network device corresponding to W i, the feedback gains corresponding to the first region and a value other than the first sub-network q i of the other K-1 sub-value
  • the information of the network is input to the first sub-value network q i for processing, and the feedback income corresponding to the first area is the second scheduling corresponding to the first area according to the terminal in the first area.
  • the information is determined after data transmission.
  • the method further includes:
  • the first network device receives the parameters of the first target policy sub-network sent by the centralized network element device, where the parameters of the K target sub-policy networks are all the same.
  • the above-mentioned dispatch control system also includes centralized network element equipment.
  • the first network device may receive the parameters of the first target sub-policy network sent by the centralized network element device, and then the first network device inputs the target state information of the first area into the first target sub-policy network for processing, And processing the output result of the first target sub-policy network to obtain the first scheduling information.
  • the above-mentioned centralized network element equipment is a core network equipment or a base station centralized unit CU equipment.
  • the core network equipment can be, for example, the core network equipment in 4G communication or 5G communication, or the core network equipment in the future communication network.
  • This application does not give the implementation of this technical solution to the core network equipment or the communication technology generation of the base station. Or the application area is restricted.
  • the above-mentioned base station centralized unit CU device may be, for example, a base station centralized unit CU device in 5G communication.
  • the first network device delivers the first scheduling information to the terminals in the first area, where the first scheduling information is used by the terminals in the first area for data transmission.
  • each cell needs to make scheduling decisions for the users of the cell.
  • there are multiple base stations of different levels and coverage areas such as Macrocell, Picocell, Femtocell, and Femtocell. These base stations need to make scheduling decisions for users registered under their names within their coverage areas.
  • the base station 4001 can obtain target state information of each terminal including the terminal 4002 from the area covered by the base station 4001.
  • the target state information includes network state information and user data packet buffer information.
  • the terminals may be terminals in a cell covered by the base station 4001. Alternatively, each terminal may also be a registered terminal within the coverage of a certain macro station, pico station, or home base station in a cell covered by a certain base station.
  • the base station 4001 obtains scheduling information according to the target state information of each terminal in its covered area, and then the base station 4001 issues the scheduling information to each terminal including the terminal 4002 so that each terminal can perform data transmission according to the scheduling information.
  • the centralized network element device obtains training data
  • the centralized network element device performs iterative training on the initial value network according to the training data to obtain a target value network.
  • the above method may include at least three implementation manners.
  • system performance parameters may include throughput, fairness, packet loss rate, time delay, etc.
  • the performance parameters can be obtained by processing the target state information. For example, system performance parameters such as throughput, fairness, packet loss rate, and delay are calculated based on the network status information and user data packet buffer information in the target status information.
  • the training data includes a target state of each region K K regions covered by the network device information S i, the K region and the network devices correspond K, i is a positive integer
  • the centralized network element device performs iterative training on the initial value network according to the training data to obtain the target value network, including:
  • the centralized network element device performs N iterations of training on the initial value network to obtain the target value network, and the N is a positive integer.
  • the centralized network element device acquires the state information Si +1 of each of the K areas covered by the K network devices, where the K areas
  • the K status information Si +1 is obtained by the terminals in the K areas after data transmission according to the second scheduling information corresponding to the K areas respectively, and the second scheduling information corresponding to the K areas respectively K is the processing target state information S i
  • the K regions are respectively inputted to the K sub-network policy W i, and outputs the result of the K sub-network policy W i are obtained by processing the sub-strategy W i is the sub-network based on the network policy obtained W i-1, the K sub-network and the policy of the K one-network device;
  • the centralized network element device outputs K K regions covered by the status information of each area S i, the K sub-network policy of W i, K covered by the base stations target state of each region in the region of the K information S i + 1 and the feedback gains K are input to the region corresponding to the value of the network Q i is processed to obtain an evaluation value of the K sub-network policy W i; wherein The feedback benefits corresponding to the K areas are obtained after the terminals in the K areas perform data transmission according to the second scheduling information respectively corresponding to the K areas;
  • the iterative training is stopped, and then the target value network is obtained.
  • the training data includes a target state of each region K K regions covered by the network device information S i, the K region and the network devices correspond K, i is a positive integer
  • the centralized network element device performs iterative training on the initial value network according to the training data to obtain the target value network, including:
  • the centralized network element device acquires the target state information Si +1 of each of the K areas covered by the K network devices, wherein the K target state information S i of the K areas +1 is obtained by the terminals in the K areas after data transmission according to the second scheduling information corresponding to the K areas, and the second scheduling information corresponding to the K areas is the the K target status information S i are input to the K sub-network policy processing W i, and outputs the result of the K sub-network policy W i are obtained by processing the sub-network policy is based on a sub policy W i Obtained from the network Wi -1 , the K sub-policy networks correspond to the K network devices in a one-to-one correspondence;
  • the centralized network element device, the network device K K regions covered by the state information S of each target area i, the output W i K sub-network policy of the base stations K target state of each region K regions covered by the information S i + 1 and the feedback gains K are input to the region corresponding to the value of the network Q i is processed to obtain the K sub-network policy evaluation W i Value; wherein the feedback revenue corresponding to the K areas is obtained by the terminals in the K areas after data transmission according to the second scheduling information corresponding to the K areas respectively;
  • the deployment of a centralized value network on a centralized network element device is taken as an example to describe the training method of the scheduling algorithm.
  • a distributed sub-policy network is deployed on a distributed unit (DU) device of a base station
  • an embodiment of the present application also provides a method for training a scheduling algorithm, which is applied to a scheduling algorithm training system, and the scheduling algorithm
  • the training system includes K base stations, and K is an integer greater than 1.
  • the method includes steps 603-604, which are specifically as follows:
  • the first network device obtains training data; wherein, the first network device is any one of the K network devices;
  • the first network device performs iterative training on the first initial sub-policy network according to the training data to obtain a first target sub-policy network, where the first initial sub-policy network is K initial sub-policy networks
  • the first target sub-policy network is the target sub-policy network corresponding to the first network device among the K target sub-policy networks
  • the K initial The sub-policy network and the K target sub-policy networks respectively correspond to the K network devices in a one-to-one correspondence.
  • the above method may include at least three implementation manners.
  • the first network device to perform iterative training on the first initial sub-policy network to obtain the specific implementation of the first target sub-policy network, please refer to the introduction of the three solutions as the first implementation before step 402 , I won’t repeat it here.
  • the base station can further implement scheduling.
  • the embodiment of the present application is trained based on a multi-agent MARL architecture composed of a central value network and a distributed strategy network to obtain a target value network and multiple distributed target strategy networks.
  • the distributed target strategy network can be used for scheduling of network devices, avoiding the completely central scheduling of a single agent DRL, and improving the feasibility of the scheme.
  • each A network can obtain the target state information s of the area corresponding to the A network from the environment corresponding to the communication system.
  • Each A network can obtain a decision action a based on the above-mentioned target state information s.
  • the C network determines the evaluation value v corresponding to each A network by obtaining the total target state information of the environment and the global state at the next moment, and based on the above-mentioned feedback benefit r and each decision action a.
  • the strategy network Ak corresponding to the base station K obtains the target state information sk corresponding to the area covered by the base station K from the environment, and the value network C obtains the current global state from the environment, namely (s 1 , s 2 ... s k ).
  • the policy network Ak makes a decision a k .
  • the value network outputs the evaluation value v of each strategy network according to the current global state s, the action a of each strategy network, the feedback income r, and the next global state s', and updates the parameters in the value network.
  • the above-mentioned global state s'at the next moment is the global state information obtained after the environment executes all the decisions made by the policy network.
  • the network policy according to the current state of the A k s k, operation of a k, the next time the status evaluation value v s k 'and the network output value k, update their network parameters.
  • the parameter update of the policy network and the value network can be synchronous or asynchronous. That is, it can be updated at the same time, or only the value network or only the policy network can be updated in certain scheduling periods. There is no specific limitation here.
  • the above-mentioned MARL framework can be deployed in a multi-cell cellular network scenario as shown in FIG. 7.
  • the number of cells participating in joint scheduling can be set according to the inter-cell interference situation, such as placing multiple cells with severe mutual interference together for joint scheduling.
  • a centralized value network can be deployed on core network equipment or a centralized unit (CU) of a base station.
  • the distributed strategy network is deployed on the distributed unit (DU) of the base station.
  • Each base station can implement scheduling control based on the corresponding target strategy network.
  • the aforementioned MARL framework can also be deployed in a multi-level heterogeneous network.
  • a macro station there are one macro station, multiple pico stations, and home base stations.
  • the value network can be deployed on the macro site, and the strategic network can be deployed on the macro site, pico site, and home base station.
  • the foregoing embodiment is described with a multi-agent reinforcement learning MARL architecture composed of a central value network and a distributed policy network.
  • the embodiment of the present application also provides a multi-agent reinforcement learning MARL architecture composed of a distributed value network and a distributed policy network, as shown in FIG. 9A and FIG. 9B.
  • the aforementioned distributed value network may be deployed on a centralized network element device, which may be a core network device or a centralized unit (CU) device of a base station.
  • the above-mentioned distributed policy network may be deployed on a distributed unit (DU) device of a base station. Training through this architecture can obtain K target sub-value networks and K target sub-strategy networks.
  • the aforementioned K target sub-value networks and K target sub-policy networks correspond to K network devices respectively.
  • the foregoing K network devices may implement the foregoing scheduling based on the obtained corresponding target sub-policy network.
  • an embodiment of the present application provides a method for training a scheduling algorithm, including steps 901-902, which are specifically as follows:
  • the centralized network element device obtains training data
  • the centralized network element device performs iterative training on the first initial sub-value network according to the training data to obtain the first target sub-value network.
  • the first initial sub-value network is the initial sub-value network corresponding to the first network device among the K initial sub-value networks
  • the first target sub-value network is the K target sub-value networks
  • the The target sub-value network corresponding to the first network device wherein the first network device is any one of K network devices, and the K initial sub-value networks and the K target sub-value networks are respectively connected to the K network devices have a one-to-one correspondence.
  • the foregoing method may include at least three implementation manners.
  • the training data includes target state information S i of the first area covered by the first network device, where i is a positive integer, and the centralized network element device performs a pairing of the first area according to the training data.
  • An initial sub-value network is iteratively trained to obtain the first target sub-value network, including:
  • the centralized network element device acquires the target state information Si +1 of the first area, where the target state information Si +1 of the first area is based on the user information in the first area.
  • second scheduling information is scheduling information of the second region corresponding to said first data transmission obtained, corresponding to the first region to the first region of the target state information S i input to the first sub-network policy W i processing, and outputs the result of the first sub-network policy W i obtained by the processing, the first sub-network policy W i is obtained based on the previous training of the first sub-network policy of W i-1 ;
  • the centralized network element device obtains performance parameters according to the target state information Si+1 of the first area, and when the value of the performance parameter is lower than a preset value, the centralized network element device will the first target region status information S i, the output of the first sub-network policy of W i, the target state information S i + 1, corresponding to the first region than said first feedback gains and
  • the training data includes the state information S i a first region covered by the first network device, i is a positive integer, the centralized network element apparatus according to the training data of a first initial value sub-network Perform iterative training to obtain the first target sub-value network, including:
  • the centralized network element device performs N iterations of training on the first initial sub-value network to obtain the first target sub-value network, where N is a positive integer.
  • the centralized network element device acquires the target state information Si +1 of the first area, where the target state information Si +1 of the first area is The terminal in the first area is obtained after data transmission according to the second scheduling information corresponding to the first area, and the second scheduling information corresponding to the first area is the target state information S i of the first area.
  • a first input to the first sub-network policy processing W i, and the output of the first sub-network policy W i obtained by the processing, the first sub-network policy is based on a W i on the training Obtained by the sub-policy network W i-1;
  • the centralized network element of the target device status information S i a first region of the first network device is covered, the output of the first sub-network policy of W i, the target state information S i + 1,
  • the feedback income corresponding to the first area and the information of the sub-value networks corresponding to the K-1 network devices other than the first sub-value network q i corresponding to the first network device are all input to the first network device.
  • a sub-network value q i is processed to obtain an evaluation value of the first sub-network policy W i, wherein the feedback gains of the first region corresponding to the terminal within the first area in accordance with the second scheduling Information obtained after data transmission;
  • the centralized network element device adjusts the parameters in the first sub-value network q i to obtain the first sub-value network q i+1 for the next training;
  • the iterative training is stopped, and the first target sub-value network is obtained.
  • K initial sub-value networks are respectively iteratively trained to obtain K target sub-value networks.
  • the training data comprises a first target state information S i the region covered by a first network device A, i is a positive integer
  • the centralized network element device according to the value of the initial sub-network of the training data Carry out iterative training to obtain the target sub-value network, including:
  • the centralized network element device acquires the target state information S i+1 of the first area, where the target state information S i+1 of the first area is determined by the terminals in the first area second scheduling information is scheduling information of the second region corresponding to said first data transmission obtained, corresponding to the first region to the first region of the target state information S i input to the first sub-network policy W i processing, and outputs the result of the first sub-network policy W i obtained by the processing, the first sub-network policy W i is obtained based on the previous training of the first sub-network policy of W i-1 ;
  • the first region of the target state information S i the output of the first sub-network policy of W i, the target state information S i + 1, the first region
  • the corresponding feedback income and the information of the respective sub-value networks corresponding to the K-1 network devices other than the first sub-value network q i corresponding to the first network device are all input to the first sub-value network q i post processed to obtain an evaluation value of the first sub-network policy W i, wherein the feedback gains corresponding to the first region to the first region in the terminal for data transmission based on the second scheduling information owned;
  • the centralized network element device adjusts the parameters in the first sub-value network q i to obtain the first sub-value network q i+1 for the next training;
  • the first network device obtains training data; wherein, the base station A is any one of the K base stations;
  • the first network device performs iterative training on the first initial sub-policy network according to the training data to obtain a first target sub-policy network, where the first initial sub-policy network is K initial sub-policy networks
  • the first target sub-policy network is the target sub-policy network corresponding to the first network device among the K target sub-policy networks
  • the K initial The sub-policy network and the K target sub-policy networks respectively correspond to the K network devices in a one-to-one correspondence.
  • the above method may include at least three implementation manners.
  • the training data comprises status information of a target region of the first S i, i is a positive integer, wherein the first region is the region covered by the first network device.
  • the first network device performs iterative training on the first initial sub-policy network according to the training data to obtain a specific implementation manner of the first target sub-policy network.
  • the introduction of each scheme will not be repeated here.
  • a distributed value network is deployed on a centralized network element device, and a distributed policy network is deployed on a distributed unit device of a base station as an example for description.
  • the foregoing distributed value network and distributed policy network may also be deployed on the distributed unit equipment of the base station.
  • the embodiment of the present application also provides a method for training a scheduling algorithm, the method is applied to a scheduling algorithm training system, the scheduling algorithm training system includes K network devices, K is an integer greater than 1, including steps 905-906, specifically as follows:
  • the first network device acquires training data; wherein, the first network device is any one of the K network devices;
  • the first network device respectively performs iterative training on the first initial sub-value network and the first initial sub-strategy network according to the training data to obtain the first target sub-value network and the first target sub-strategy network, wherein:
  • the first initial sub-value network is the initial sub-value network corresponding to the first network device among the K initial sub-value networks
  • the first target sub-value network is the first sub-value network among the K target sub-value networks.
  • a target sub-value network corresponding to a network device the first initial sub-policy network is an initial sub-policy network corresponding to the first network device among K initial sub-policy networks, and the first target sub-policy network is K Target sub-policy networks corresponding to the first network device in the target sub-policy networks, the K initial sub-value networks, K target sub-value networks, K initial sub-policy networks, and K target sub-policy networks, respectively There is a one-to-one correspondence with the K network devices.
  • the training data includes status information of a first area, wherein the first area is an area covered by the first network device, and the first network device compares the value of the first initial sub-value according to the training data.
  • the network and the first initial sub-strategy network are respectively iteratively trained to obtain the first target sub-value network and the first target sub-strategy network, including:
  • the first network device obtains a performance parameter according to the target state information S i+1 , and when the value of the performance parameter is lower than a preset value, the first network device calculates the target state information S i, the output of the first sub-network policy of W i, the target state information S i + 1 and the feedback gains are input to the first sub-network value q i is processed to obtain the first sub-network policy W The evaluation value of i ; the first network device adjusts the parameters in the first sub-value network q i to obtain the first sub-value network q i+1 for the next training; wherein, the feedback after return data transmission terminal within the first area in accordance with the second scheduling information is obtained; the first network device according to the target state information S i, the first sub-output network policy of W i As a result, the target state information S i + 1 and the value of the evaluation parameter of the first sub-network policy is adjusted to the W i, to obtain the training for the next first sub-network
  • the above only uses performance parameters as the judgment condition for the end of training.
  • the specific processing means using the number of training times, the value of the loss function of the network, etc. as the judgment condition for the end of the training can be referred to the above introduction, and will not be repeated here.
  • each value network individually provides evaluation value for the corresponding strategic network.
  • Multiple value networks are connected by a communication bus to exchange information.
  • the policy get their network A k corresponding state s k, C k value of the network obtained from the environment itself corresponding state s k from the environment.
  • the policy network Ak makes a decision ak , and after the environment executes all the decisions made by the policy network, it feeds back the revenue r k to the value network C k .
  • the strategy network Ak updates its own network parameters according to the current state sk , the action a k , the next moment state sk ', and the evaluation value v k output by the value network. Among them, the state s k 'at the next moment is the state obtained after the corresponding environment executes the decision made by the policy network.
  • the policy networks can also transmit information to each other.
  • the information of other strategic networks can be obtained through the communication bus.
  • the information of the other policy network may include output results of other policy networks, parameters of other policy networks, or gradient values updated by other policy networks.
  • the strategy network Ak can update its own network parameters according to the current state sk , the action a k , the next moment state sk ′, the evaluation value v k output by the value network, and other information of the strategy network.
  • the above-mentioned MARL framework is deployed in a multi-cell cellular network scenario.
  • the number of cells participating in joint scheduling can be set according to the inter-cell interference situation, such as placing multiple cells with severe mutual interference together for joint scheduling.
  • 3-cell joint scheduling as an example.
  • both the distributed value network and the distributed policy network are deployed on the distributed unit (DU) of the base station.
  • the distributed value network can also be deployed on the core network equipment or the CU of the base station.
  • the distributed value network is deployed on the core network equipment or the CU of the base station, which helps to reduce the communication overhead between the value networks.
  • the MARL framework corresponding to the above-mentioned distributed value network and distributed strategy network can also be used for the scheduling of systems with multi-level networks such as heterogeneous networks and cognitive wireless networks.
  • multi-level networks such as heterogeneous networks and cognitive wireless networks.
  • a heterogeneous network as an example, as shown in FIG. 11, for a cell within the coverage of a macro station, there are one macro station, multiple pico stations, and multiple home base stations.
  • value networks and strategic networks can be deployed on macro sites, pico sites, and home base stations.
  • multiple distributed value networks can also be deployed on the macro site to reduce the communication overhead between value networks.
  • the embodiment of the present application is trained based on a multi-agent MARL architecture composed of a distributed value network and a distributed strategy network, and multiple target value networks and multiple distributed target strategy networks are obtained.
  • the distributed target strategy network can be used for scheduling of network devices, avoiding the completely central scheduling of a single agent DRL, and improving the feasibility of the scheme.
  • the embodiment of the present application also provides a multi-agent reinforcement learning MARL architecture composed of a central value network and a central policy network.
  • the architecture includes a central value network and a central strategic network.
  • the target value network and target strategy network can be obtained by training through this architecture. After training, the target strategy network is issued to each base station, which can be used to complete scheduling in a distributed manner.
  • the central value network and the central policy network can both be deployed on a centralized network element device, such as a core network device or a centralized unit (CU) of a base station.
  • a centralized network element device such as a core network device or a centralized unit (CU) of a base station.
  • an embodiment of the present application provides a scheduling algorithm training method, which is applied to a scheduling algorithm training system, the scheduling algorithm training system includes a centralized network element device, and the method includes steps 1201-1203, which are specifically as follows :
  • the centralized network element device acquires training data
  • the centralized network element device performs iterative training on the initial value network and the initial strategy network respectively according to the training data to obtain a target value network and a target strategy network;
  • the centralized network element device acquires a target region of the K state information S i + 1, wherein the target state information S i + 1 in the terminal region of the K according to the second scheduling Status information obtained after data transmission of information;
  • the centralized network element device obtains performance parameters according to the target state information Si+1 of the K areas, and when the value of the performance parameter is lower than a preset value, the centralized network element device will region of the K target state information S i, the output w i of the network policy, the target state information S i + 1 and the value of the feedback gains are inputted to the network Q i is processed to obtain a network policy evaluation of the value w i; the centralized network element device to adjust the parameter value Q i of the network, the network to obtain a value of Q i + 1; terminals in the K region, wherein the feedback is based on the revenue
  • the network policy w i is the initial network policy.
  • the above only uses performance parameters as the judgment condition for the end of training.
  • the specific processing means using the number of training times, the value of the loss function of the network, etc. as the judgment condition for the end of the training can be referred to the above introduction, and will not be repeated here.
  • the centralized network element device sends the parameters of the target policy network to the K network devices.
  • the centralized network element device can issue the target strategy network obtained above to each network device, thereby realizing distributed scheduling, avoiding the fully centralized scheduling of a single agent DRL, and improving the feasibility of the solution.
  • both the central A network and the C network obtain global target state information s. Then, the central A network makes decision actions a k for each cell in the cellular network or base stations at all levels in the heterogeneous network. When the action a k is executed, the system status is updated, and the revenue r is fed back to the central C network.
  • the central C network calculates the evaluation value v for the central A network according to the income r, the action a k , the target state information s, and the global state s'at the next moment, and updates its own network parameters at the same time. The central A network and C network update their own network parameters. If the training termination condition is not reached, repeat the above steps.
  • the central A network is delivered to each cell base station in the cellular network or all levels of base stations in the heterogeneous network.
  • the above termination conditions include when the update times of the neural network reaches the set threshold, or the system performance (throughput/fairness/packet loss rate/delay) reaches the set threshold, or the loss function of the neural network is lower than the set threshold. The threshold and so on.
  • the central value network and policy network can be deployed on the core network equipment or CU of the multi-cell cellular network. Among them, after the above-mentioned training, the central policy network can be replicated and sent to each cell base station for scheduling. Centralized value network and strategy network can also be deployed on macro sites in multi-level heterogeneous networks. As shown in Figure 14, after the above-mentioned training, the central policy network can be replicated and distributed to base stations of various levels for scheduling.
  • an embodiment of the present application also provides a dispatch control system, the dispatch control system includes K network devices, K is an integer greater than 1, wherein the first network device is any one of the K network devices , The first network device is used for:
  • Target state information of a first area where the first area is an area covered by the first network device, and the target state information includes network state information and user data packet buffer information;
  • the first scheduling information is generated based on the target status information of the first area and the first target sub-policy network, wherein the first target sub-policy network is the one corresponding to the first network device among the K target sub-policy networks Target sub-policy networks, the K target sub-policy networks correspond to the K network devices in a one-to-one correspondence;
  • the first network device before generating the first scheduling information based on the target state information of the first area and the first target sub-policy network, is further configured to:
  • performing iterative training on the first initial sub-policy network to obtain the first target sub-policy network specifically includes:
  • the first network device is configured to:
  • the first sub-network policy evaluation value W i based on the state information for each of the K target network device covered by the K region, the K outputs corresponding to K sub network devices and network policy the feedback gains K are inputted to the area corresponding to the value Q i obtained by processing network, wherein said feedback gains K corresponding to the terminal region within the region corresponding to the K regions are respectively based on the K
  • the second scheduling information is determined after data transmission.
  • the first network device when the value of the performance parameter is lower than the preset value, the first network device is configured to:
  • the first evaluation value W i sub-network policy is based on the value of a first sub-processing network q i It is obtained that the first sub-value network q i is obtained based on the first sub-value network of the previous training, and the first sub-value network q i is K sub-value networks, the first network device Corresponding sub-value networks, the K sub-value networks have a one-to-one correspondence with the K network devices.
  • the first sub-network policy evaluation value W i based on the state of the first target region covered by the first network device information and the target status information S i S i + 1, corresponding to the first network device the output of the first sub-network policy of W i, feedback gains corresponding to the first area information and the value of other K-1 sub-network other than the first sub-network value q i are input to the first sub- The value network q i is processed to obtain, wherein the feedback income corresponding to the first area is determined after the terminal in the first area performs data transmission according to the second scheduling information corresponding to the first area.
  • the scheduling control system further includes a centralized network element device.
  • the first network device is also used for:
  • the centralized network element device is a core network device or a centralized base station Type unit CU equipment.
  • an embodiment of the present application also provides a scheduling algorithm training system.
  • the scheduling algorithm training system includes K network devices, K is an integer greater than 1, and the first network device is any of the K network devices.
  • the first network device is used to:
  • the first initial sub-policy network is K initial sub-policy networks, and the first network device The corresponding initial sub-policy network;
  • the first target sub-policy network is the target sub-policy network corresponding to the first network device among the K target sub-policy networks;
  • the K initial sub-policy networks, the K The target sub-policy networks respectively correspond to the K network devices in a one-to-one correspondence.
  • the training data includes target state information Si +1 of the first area, where the first area is the area covered by the first network device, and the first network device is specifically configured to:
  • the first network device is configured to:
  • the corresponding second scheduling information is determined after data transmission.
  • the first network device when the value of the performance parameter is lower than the preset value, the first network device is configured to:
  • the first evaluation value W i sub-network policy is based on the value of a first sub-processing network q i It is obtained that the first sub-value network q i is obtained based on the first sub-value network of the previous training, and the first sub-value network q i is K sub-value networks, the first network device Corresponding sub-value networks, the K sub-value networks have a one-to-one correspondence with the K network devices.
  • the first network device is also used for:
  • the network q i is a sub-value network corresponding to the first network device among the K sub-value networks, and the K sub-value networks have a one-to-one correspondence with the K network devices.
  • the first network device is further configured to:
  • the feedback income corresponding to the first area is determined after the terminals in the first area perform data transmission according to the second scheduling information corresponding to the first area; the first network device adjusts the first Parameters in the sub-value network q i to obtain the first sub-value network for the next training.
  • the scheduling algorithm training system further includes a centralized network element device, and when the value of the performance parameter is not lower than the preset value, the centralized network element device is used for :
  • the value of the network as a target value Q i network, wherein Q i is the value of the network based on a value of the trained network obtained.
  • the centralized network element device when the value of the performance parameter is lower than the preset value, the centralized network element device is used to:
  • the feedback benefit corresponding to the first area is determined after the terminal in the first area performs data transmission according to the second scheduling information corresponding to the first area;
  • the embodiment of the present application is based on the first network device among the K network devices obtaining the target state information of the first area, and then obtaining the scheduling information based on the target state information and the first target sub-policy network corresponding to the first network device, and then The scheduling information is delivered to the terminals in the first area, so that the terminals in the first area perform data transmission according to the scheduling information.
  • each network device performs scheduling control corresponding to its own strategy network, so that multi-agent scheduling control is implemented, and the performance of the scheduling control system is improved.
  • the feasibility of the scheduling control scheme is improved.
  • the embodiment of the present application also provides a computer-readable storage medium that stores instructions in the computer-readable storage medium, and when it runs on a computer or a processor, the computer or the processor executes any one of the above methods. Or multiple steps.
  • the embodiments of the present application also provide a computer program product containing instructions.
  • the computer program product runs on a computer or a processor, the computer or the processor is caused to execute one or more steps in any of the foregoing methods.
  • the computer program product includes one or more computer instructions.
  • the computer may be a general-purpose computer, a special-purpose computer, a computer network, or other programmable devices.
  • the computer instructions may be stored in a computer-readable storage medium or transmitted through the computer-readable storage medium.
  • the computer instructions can be sent from a website site, computer, server, or data center to another website site, computer, Server or data center for transmission.
  • the computer-readable storage medium may be any available medium that can be accessed by a computer or a data storage device such as a server or a data center integrated with one or more available media.
  • the usable medium may be a magnetic medium (for example, a floppy disk, a hard disk, a magnetic tape), an optical medium (for example, a DVD), or a semiconductor medium (for example, a solid state disk (SSD)).
  • the process can be completed by a computer program instructing relevant hardware.
  • the program can be stored in a computer readable storage medium. , May include the processes of the above-mentioned method embodiments.
  • the aforementioned storage media include: ROM or random storage RAM, magnetic disks or optical discs and other media that can store program codes.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)

Abstract

本申请实施例提供一种调度方法、调度算法的训练方法及相关系统、存储介质,所述调度方法应用于调度控制系统,所述调度控制系统包括K个网络设备,K为大于1的整数,所述方法包括:第一网络设备获取第一区域的目标状态信息,所述目标状态信息包括网络状态信息和用户数据包缓存信息;所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息,其中,所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络,所述第一网络设备向所述第一区域内的终端下发所述第一调度信息。本方案提升了调度控制系统的性能。且,通过分布式的部署策略网络,提高了调度控制方案的可行性。

Description

调度方法、调度算法的训练方法及相关系统、存储介质
本申请要求于2020年2月19日提交中国专利局、申请号为202010106750.2、发明名称为“调度方法、调度算法的训练方法及相关系统、存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及通信技术领域,尤其涉及一种调度方法、调度算法的训练方法、调度控制系统、调度算法训练系统以及存储介质。
背景技术
在蜂窝网络中,媒体访问控制(Medium Access Control,MAC)层调度主要解决时频资源的分配、调制与编码策略(Modulation and Coding Scheme,MCS)选择、用户配对、预编码等问题。通过调度来实现系统吞吐和公平性的折中。
马尔可夫决策过程(MDP)是一种分析决策问题的数学模型。如图1所示,其假设环境具有马尔可夫性质(环境的未来状态的条件概率分布仅依赖于当前状态),决策者通过周期性地观察环境的状态,根据当前环境的状态做出决策,与环境交互后得到新的状态及奖励。
强化学习是机器学习中的一个领域,可以用于上述求解马尔科夫决策过程。如图2所示,强化学习强调智能体Agent通过和环境的交互过程,获得最大化的预期利益,学习得到最优的行为方式。智能体通过对环境的观察,得到当前状态s,并按照一定的规则π决策一个动作a反馈给环境,环境将该动作实行后所得到的奖励r或惩罚反馈给智能体。通过多次的迭代训练,使智能体学会根据环境状态作出最优决策。
其中,将强化学习和深度学习相结合,就得到了深度强化学习(deep reinforcement learning,DRL),如图3所示。对比图2和图3可以发现,深度强化学习仍然符合强化学习中智能体和环境交互的框架。不同的是,智能体中使用深度神经网络进行决策。
为了实现在动态变化的无线传输环境中进行调度,现有技术采用深度强化学习DRL算法。该算法利用DRL中的智能体与无线传输环境的交互,不断更新其自身参数,以获得较优的决策策略。其中,智能体首先获取通信系统的当前状态,并根据此状态做出决策;执行决策后,通信系统进入下一状态,同时反馈收益。智能体根据收益情况对自身决策参数进行调整。智能体通过迭代式地与环境进行交互,不断调整自身参数以获得更大收益,最终收敛后即可得到较优的调度策略。由于现有技术采用一种中心式的调度方案,唯一的智能体负责全网所有小区/网络的决策。在多小区网络或多等级异构网络场景中,采用现有技术会导致动作空间过大,智能体所用神经网络的训练过程过慢,难以收敛。因此,在实际的系统中,部署这种中心式的调度方案可行性极低。
发明内容
本申请公开了一种调度方法、调度算法的训练方法及相关系统、存储介质,可以实现 基于多智能体的分布式的调度,提高了系统的性能。
第一方面,本申请实施例提供一种调度方法,所述方法应用于调度控制系统,所述调度控制系统包括K个网络设备,K为大于1的整数,所述方法包括:
第一网络设备获取第一区域的目标状态信息,其中,所述第一网络设备为所述K个网络设备中的任意一个,所述第一区域为所述第一网络设备所覆盖的区域,所述目标状态信息包括网络状态信息和用户数据包缓存信息;
所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息,其中,所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络,所述K个目标子策略网络与所述K个网络设备一一对应;
所述第一网络设备向所述第一区域内的终端下发所述第一调度信息,所述第一调度信息被所述第一区域内的终端用于数据传输。
本申请实施例基于K个网络设备中的第一网络设备通过获取第一区域的目标状态信息,然后基于目标状态信息和与该第一网络设备对应的第一目标子策略网络得到调度信息,进而向第一区域内的终端下发该调度信息,以便第一区域内的各终端根据该调度信息进行数据传输。采用该手段,其中,各个网络设备分别对应各自的策略网络进行调度控制,实现多智能体进行调度控制,提升了调度控制系统的性能。且,通过分布式的部署策略网络,提高了调度控制方案的可行性。
其中,所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前,所述方法还包括:
所述第一网络设备对第一初始子策略网络进行迭代训练,以得到所述第一目标子策略网络;
其中,所述第一网络设备对第一初始子策略网络进行迭代训练,以得到所述第一目标子策略网络,包括:
所述第一网络设备根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值不低于预设值时,所述第一网络设备将第一子策略网络W i确定为所述第一目标子策略网络,其中,i为正整数,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的;所述第二调度信息为所述第一网络设备基于所述第一区域的目标状态信息S i和所述第一子策略网络W i生成的,所述目标状态信息S i是第i次所述训练的目标状态信息;其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
该实施例以性能参数的值不低于预设值时停止训练。当然,本申请实施例并不限定上述条件。本申请实施例还可以以性能参数的值不高于预设值时停止训练。例如通过对上述预设值取反构成新的预设值等。
本申请还可以以迭代训练的次数达到预设次数时停止训练。或者,以更新参数的次数达到预设次数时停止训练等。
可替代的,本申请实施例还可以以策略网络对应的损失函数的值低于预设阈值时停止训练等。
其中,当所述性能参数的值低于所述预设值时,所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于价值网络Q i进行处理得到的,所述价值网络Q i是基于上一次所述训练的价值网络得到的。
所述第一子策略网络W i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理得到,其中,所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。
作为另一种可选的实现方式,当所述性能参数的值低于所述预设值时,所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于第一子价值网络q i进行处理得到的,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
其中,所述第一子策略网络W i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理得到,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。
作为又一种可选的实现方式,所述调度控制系统还包括集中式网元设备,所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前,所述方法还包括:
所述第一网络设备接收所述集中式网元设备发送的第一目标子策略网络的参数,其中,所述K个目标子策略网络的参数均相同,其中,所述集中式网元设备为核心网设备或基站集中式单元CU设备。
第二方面,本申请实施例还提供一种调度算法的训练方法,所述方法应用于调度算法训练系统,所述调度算法训练系统包括K个网络设备,K为大于1的整数;所述方法包括:
第一网络设备获取训练数据,其中,所述第一网络设备为所述K个网络设备中的任意一个;
所述第一网络设备根据所述训练数据对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络;其中,所述第一初始子策略网络为K个初始子策略网络中、所述第一网络设备对应的初始子策略网络;所述第一目标子策略网络为K个目标子策略网络中、 所述第一网络设备对应的目标子策略网络;所述K个初始子策略网络、所述K个目标子策略网络分别与所述K个网络设备一一对应。
其中,所述训练数据包括第一区域的目标状态信息S i+1,其中,所述第一区域为所述第一网络设备所覆盖的区域,所述第一网络设备根据所述训练数据对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络,包括:
所述第一网络设备根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值不低于预设值时,所述第一网络设备将第一子策略网络W i确定为所述第一目标子策略网络,其中,i为正整数,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的;所述第二调度信息为所述第一网络设备基于所述第一区域的目标状态信息S i和所述第一子策略网络W i生成,所述目标状态信息S i是第i次所述训练的目标状态信息;其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
当所述性能参数的值低于所述预设值时,所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于价值网络Q i进行处理得到的,所述价值网络Q i是基于上一次训练的价值网络得到的。
其中,所述第一子策略网络W i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备分别对应的各子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理得到,其中,所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。
本申请实施例基于中心式的价值网络和分布式的策略网络构成的多智能体MARL架构进行训练,得到一个目标价值网络和多个分布式的目标策略网络。该分布式的目标策略网络可用于网络设备进行调度,避免了单智能体DRL完全中心式的调度,提高了方案可行性。
作为另一种可选的实现方式,当所述性能参数的值低于所述预设值时,所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于第一子价值网络q i进行处理得到的,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
其中,所述第一子策略网络W i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理得到,其中,所述第一区域对 应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。
本申请实施例基于分布式的价值网络和分布式的策略网络构成的多智能体MARL架构进行训练,得到多个目标价值网络和多个分布式的目标策略网络。该分布式的目标策略网络可用于网络设备进行调度,避免了单智能体DRL完全中心式的调度,提高了方案可行性。
作为又一种可选的实现方式,所述方法还包括:
所述第一网络设备将第一子价值网络q i确定为第一目标子价值网络,其中,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
其中,当所述性能参数的值低于所述预设值时,所述第一网络设备将所述第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的;所述第一网络设备调整所述第一子价值网络q i中的参数,以得到用于下一次所述训练的第一子价值网络。
作为再一种可选的实现方式,所述调度算法训练系统还包括集中式网元设备,当所述性能参数的值不低于所述预设值时,所述方法还包括:
所述集中式网元设备将价值网络Q i确定为目标价值网络,其中,所述价值网络Q i是基于上一次所述训练的价值网络得到的。
其中,当所述性能参数的值低于所述预设值时,所述集中式网元设备将所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理以得到K个评价价值,其中,所述K个评价价值与所述K个子策略网络一一对应;
所述集中式网元设备将所述K个评价价值分别发送至所述K个网络设备;
所述集中式网元设备调整所述价值网络Q i中的参数,以得到用于下一次所述训练的价值网络。
作为又一种可选的实现方式,所述调度算法训练系统还包括集中式网元设备,当所述性能参数的值不低于所述预设值时,所述方法还包括:
所述集中式网元设备将第一子价值网络q i确定为第一目标子价值网络,其中,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
当所述性能参数的值低于所述预设值时,所述集中式网元设备将所述第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出 结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值;其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的;
所述集中式网元设备调整所述第一子价值网络q i中的参数,以得到用于下一次所述训练的第一子价值网络。
第三方面,本申请实施例还提供一种调度控制系统,所述调度控制系统包括K个网络设备,K为大于1的整数,其中,第一网络设备为所述K个网络设备中的任意一个,所述第一网络设备用于:
获取第一区域的目标状态信息,其中,所述第一区域为所述第一网络设备所覆盖的区域,所述目标状态信息包括网络状态信息和用户数据包缓存信息;
基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息,其中,所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络,所述K个目标子策略网络与所述K个网络设备一一对应;
向所述第一区域内的终端下发所述第一调度信息,所述第一调度信息被所述第一区域内的终端用于数据传输。
其中,在基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前,所述第一网络设备还用于:
对第一初始子策略网络进行迭代训练,以得到所述第一目标子策略网络;
其中,对第一初始子策略网络进行迭代训练,以得到所述第一目标子策略网络,具体包括:
根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值不低于预设值时,将第一子策略网络W i确定为所述第一目标子策略网络,其中,i为正整数,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的;所述第二调度信息为基于所述第一区域的目标状态信息S i和所述第一子策略网络W i生成的,所述目标状态信息S i是第i次所述训练的目标状态信息;其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
当所述性能参数的值低于所述预设值时,所述第一网络设备用于:
根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于价值网络Q i进行处理得到的,所述价值网络Q i是基于上一次所述训练的价值网络得到的。
其中,所述第一子策略网络W i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理得到,其中,所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据 传输后确定的。
作为另一种可选的实现方式,当所述性能参数的值低于所述预设值时,所述第一网络设备用于:
根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于第一子价值网络q i进行处理得到的,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
其中,所述第一子策略网络W i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理得到,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。
作为再一种可选的实现方式,所述调度控制系统还包括集中式网元设备,在基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前,所述第一网络设备还用于:
接收所述集中式网元设备发送的第一目标子策略网络的参数,其中,所述K个目标子策略网络的参数均相同,其中,所述集中式网元设备为核心网设备或基站集中式单元CU设备。
第四方面,本申请实施例还提供一种调度算法训练系统,所述调度算法训练系统包括K个网络设备,K为大于1的整数,第一网络设备为所述K个网络设备中的任意一个,所述第一网络设备用于:
获取训练数据;
根据所述训练数据对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络;其中,所述第一初始子策略网络为K个初始子策略网络中、所述第一网络设备对应的初始子策略网络;所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络;所述K个初始子策略网络、所述K个目标子策略网络分别与所述K个网络设备一一对应。
其中,所述训练数据包括第一区域的目标状态信息S i+1,其中,所述第一区域为所述第一网络设备所覆盖的区域,所述第一网络设备具体用于:
根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值不低于预设值时,将第一子策略网络W i确定为所述第一目标子策略网络,其中,i为正整数,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的;所述第二调度信息为基于所述第一区域的目标状态信息S i和所述第一子策略网络W i生成,所述目标状态信息S i是第i次所述训练的目标状态信息;其中,当i=1 时,所述第一子策略网络W i为第一初始子策略网络。
当所述性能参数的值低于所述预设值时,所述第一网络设备用于:
根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于价值网络Q i进行处理得到的,所述价值网络Q i是基于上一次训练的价值网络得到的。
其中,所述第一子策略网络W i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备分别对应的各子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理得到,其中,所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。
作为另一种可选的实现方式,当所述性能参数的值低于所述预设值时,所述第一网络设备用于:
根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于第一子价值网络q i进行处理得到的,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
其中,所述第一子策略网络W i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理得到,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。
作为又一种可选的实现方式,所述第一网络设备还用于:
将第一子价值网络q i确定为第一目标子价值网络,其中,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
其中,当所述性能参数的值低于所述预设值时,所述第一网络设备还用于:
将所述第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的;所述第一网络设备调整所述第一子价值网络q i中的参数,以得到用于下一次所述训练的第一子价值网络。
作为再一种可选的实现方式,所述调度算法训练系统还包括集中式网元设备,当所述性能参数的值不低于所述预设值时,所述集中式网元设备用于:
将价值网络Q i确定为目标价值网络,其中,所述价值网络Q i是基于上一次所述训练的价值网络得到的。
当所述性能参数的值低于所述预设值时,所述集中式网元设备用于:
将所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理以得到K个评价价值,其中,所述K个评价价值与所述K个子策略网络一一对应;
将所述K个评价价值分别发送至所述K个网络设备;
调整所述价值网络Q i中的参数,以得到用于下一次所述训练的价值网络。
作为再一种可选的实现方式,所述调度算法训练系统还包括集中式网元设备,当所述性能参数的值不低于所述预设值时,所述集中式网元设备用于:
将第一子价值网络q i确定为第一目标子价值网络,其中,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
其中,当所述性能参数的值低于所述预设值时,所述集中式网元设备用于:
将所述第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值;其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的;
调整所述第一子价值网络q i中的参数,以得到用于下一次所述训练的第一子价值网络。
第五方面,本申请提供了一种计算机存储介质,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如第一方面任一种可能的实施方式和/或第二方面任一种可能的实施方式提供的方法。
第六方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一种可能的实施方式和/或第二方面任一种可能的实施方式提供的方法。
可以理解地,上述提供的第三方面所述的装置、第四方面所述的装置、第五方面所述的计算机存储介质或者第六方面所述的计算机程序产品均用于执行第一方面中任一所提供的方法以及第二方面中任一所提供的方法。因此,其所能达到的有益效果可参考对应方法中的有益效果,此处不再赘述。
附图说明
下面对本申请实施例用到的附图进行介绍。
图1是现有技术中马尔可夫决策过程的示意图;
图2是现有技术中强化学习用于求解马尔科夫决策过程的示意图;
图3是现有技术中深度强化学习用于求解马尔科夫决策过程的示意图;
图4是本申请实施例提供的一种调度方法的流程示意图;
图5是本申请实施例提供的一种调度方法的应用场景示意图;
图6是本申请实施例提供的一种中心式价值网络+分布式策略网络的调度算法的训练方法的示意图;
图7是本申请实施例提供的一种中心式价值网络+分布式策略网络部署在多小区蜂窝网络中的场景示意图;
图8是本申请实施例提供的一种中心式价值网络+分布式策略网络部署在异构网络中的场景示意图;
图9A是本申请实施例提供的一种分布式价值网络+分布式策略网络的调度算法的训练方法的示意图;
图9B是本申请实施例提供的另一种分布式价值网络+分布式策略网络的调度算法的训练方法的示意图;
图10是本申请实施例提供的一种分布式价值网络+分布式策略网络部署在多小区蜂窝网络中的场景示意图;
图11是本申请实施例提供的一种分布式价值网络+分布式策略网络部署在异构网络中的场景示意图;
图12是本申请实施例提供的一种中心式价值网络+中心式策略网络的调度算法的训练方法的示意图;
图13是本申请实施例提供的一种中心式价值网络+中心式策略网络部署在多小区蜂窝网络中的场景示意图;
图14是本申请实施例提供的一种中心式价值网络+中心式策略网络部署在异构网络中的场景示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
参照图4所示,为本申请实施例提供的一种调度方法的流程示意图。其中,所述调度方法应用于调度控制系统,所述调度控制系统包括K个网络设备,K为大于1的整数,如图4所示,其包括步骤401-403,具体如下:
401、第一网络设备获取第一区域的目标状态信息,其中,所述第一网络设备为所述K个网络设备中的任意一个,所述第一区域为所述第一网络设备所覆盖的区域,所述目标 状态信息包括网络状态信息和用户数据包缓存信息;
其中,上述K个网络设备可以是K个基站。该基站可以是一种部署在无线接入网中为移动台(Mobile Station,MS)提供无线通信功能的装置。其中,上述基站可以为各种形式的宏基站、微基站(也称为小站)、中继站、接入点等。在采用不同的无线接入技术的系统中,具备基站功能的设备的名称可能会有所不同,例如,在LTE系统中,称为演进的节点B(evolved NodeB,eNB或者eNodeB);在第三代(3rd Generation,3G)系统中,称为节点B(Node B)等。为方便描述,本申请所有实施例中,上述为MS提供无线通信功能的装置统称为基站。上述MS可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备。所述MS也可以称为终端(terminal)。还可以是用户单元(subscriber unit)、蜂窝电话(cellular phone)、智能手机(smart phone)、无线数据卡、个人数字助理(Personal Digital Assistant,PDA)电脑、平板型电脑、无线调制解调器(modem)、手持设备(handset)、膝上型电脑(laptop computer)、机器类型通信(Machine Type Communication,MTC)终端等。
第一网络设备可以是上述K个网络设备中的任意一个。如,该第一网络设备可以是基站A,所述第一区域即为基站A所覆盖的区域。
上述目标状态信息可以是第一网络设备所覆盖小区内的各终端用户的状态信息。或者,对于某个基站所覆盖小区中存在一个宏站、多个微微站和家庭基站等时,所述目标状态信息还可以是上述宏站、微微站或者家庭基站中的任一个基站所覆盖范围内的注册用户状态信息。
其中,该目标状态信息包括网络状态信息和用户数据包缓存信息等。该网络状态信息包括信道状态信息、吞吐量信息和混合自动重传(Hybrid Automatic Repeat request,HARQ)信息等。上述用户数据包缓存信息包括缓存中数据包的数量、缓存中数据包的大小和缓存中数据包的时延等。
402、所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息,其中,所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络,所述K个目标子策略网络与所述K个网络设备一一对应;
上述第一调度信息如可以是指示上述第一区域内的第一终端发送数据的方式的信息等。该发送数据的方式即发送数据时所使用的无线资源、调制编码策略、预编码策略等具体的配置。
其中,所述第一调度信息为第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成的。
可选的,上述第一网络设备可将上述第一区域的目标状态信息输入至第一目标子策略网络进行处理,并对所述第一目标子策略网络的输出结果进行处理以得到上述第一调度信息。
其中,Actor-Critic(演员-评判家)算法是一种常用的强化学习算法。如图5所示,采用Actor-Critic算法的强化学习架构中,智能体包括Actor和Critic两部分。其中,Actor 负责根据环境状态和Critic的输出做出决策,而Critic负责根据环境状态和收益来评估Actor做出的决策的好坏。在深度强化学习中,Actor和Critic都可以采用深度神经网络来实现。此时,由于Actor神经网络负责做出决策,所以也叫策略网络。Critic神经网络输出评价,也叫价值网络。
其中,上述调度控制系统包括K个网络设备。每个网络设备均对应一个目标子策略网络。第一网络设备对应上述第一目标子策略网络。如,每个网络设备上均部署有一个目标子策略网络。其中,第一网络设备上部署有上述第一目标子策略网络。
(1)在步骤402之前,作为第一种实现方式,所述方法还包括:
所述第一网络设备对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络。
其中,上述第一目标子策略网络可基于目标价值网络进行训练得到。
所述第一网络设备对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络,包括:
所述第一网络设备根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值不低于预设值时,所述第一网络设备将第一子策略网络W i确定为第一目标子策略网络,其中,i为正整数,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的;所述第二调度信息为所述第一网络设备基于所述第一区域的目标状态信息S i和所述第一子策略网络W i生成的;其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
其中,上述以当前进行的训练为第i次训练进行说明。
具体地,所述第一网络设备对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络,包括:
S1、所述第一网络设备获取所述第一区域的目标状态信息S i,其中,i为正整数;
S2、所述第一网络设备将所述目标状态信息S i输入至第一子策略网络W i进行处理,并对所述第一子策略网络W i的输出结果进行处理以得到第二调度信息;
S3、所述第一网络设备向所述第一区域内的终端下发所述第二调度信息,所述第二调度信息被所述第一区域内的终端用于数据传输;
S4、所述第一网络设备获取所述第一区域的目标状态信息S i+1,其中,所述目标状态信息S i+1为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的;
S5、所述第一网络设备根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值低于预设值时,所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络W i+1;其中,所述第一子策略网络W i的评价价值是基于价值网络Q i进行处理得到的,所述价值网络Q i是基于上一次所述训练的价值网络Q i-1得到的;令i=i+1,并重复执行S1-S5;当所述性能参数的值不低于所述预设值时,将所述第一子策略网络W i确定为第一目标子策略网络;
其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
上述以当前进行的训练为第i次训练进行说明。其中,上述上一次所述训练即为第i-1次训练。上述下一次所述训练即为第i+1次训练。
其中,该实施例以性能参数的值不低于预设值时停止训练。当然,本申请实施例并不限定上述条件。本申请实施例还可以以性能参数的值不高于预设值时停止训练。例如通过对上述预设值取反构成新的预设值等。
作为第一种实现方式的第二种方案,所述第一网络设备对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络,包括:
所述第一网络设备对第一初始子策略网络进行M次迭代训练,以得到第一目标子策略网络,所述M为正整数;
其中,在进行第i次迭代训练时,所述第一网络设备获取所述第一区域的目标状态信息S i,i为正整数;
所述第一网络设备将所述目标状态信息S i输入至第一子策略网络W i进行处理,并对所述子策略网络W i的输出结果进行处理以得到第二调度信息;
所述第一网络设备向所述第一区域内的终端下发所述第二调度信息,所述第二调度信息被所述第一区域内的终端用于数据传输;
所述第一网络设备获取所述第一区域的目标状态信息S i+1,其中,所述目标状态信息S i+1为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的;
所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络W i+1;其中,所述第一子策略网络W i的评价价值基于价值网络Q i进行处理得到的,所述价值网络Q i是基于上一次所述训练的价值网络Q i-1得到的;
其中,当i=M时,所述第一子策略网络W i+1为第一目标子策略网络;当i=1时,所述第一子策略网络W i为第一初始子策略网络。
上述实施例以迭代训练的次数达到预设次数时停止训练。当然,本申请实施例并不限定上述条件。本申请实施例还可以以更新参数的次数达到预设次数时停止训练等。此处不作具体限定。
作为第一种实现方式的第三种方案,其中,所述第一网络设备对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络,包括:
A1、所述第一网络设备获取所述第一区域的目标状态信息S i,其中,i为正整数;
A2、所述第一网络设备将所述目标状态信息S i输入至第一子策略网络W i进行处理,并对所述第一子策略网络W i的输出结果进行处理以得到第二调度信息;
A3、所述第一网络设备向所述第一区域内的终端下发所述第二调度信息,所述第二调度信息被所述第一区域内的终端用于数据传输;
A4、所述第一网络设备获取所述第一区域的目标状态信息S i+1,其中,所述目标状态信息S i+1为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的;
A5、所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结 果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络W i+1;其中,所述第一子策略网络W i的评价价值基于价值网络Q i进行处理得到的,所述价值网络Q i是基于上一次所述训练的价值网络Q i-1得到的;
A6、所述第一网络设备获取所述第一子策略网络W i+1对应的损失函数,当所述第一子策略网络W i+1对应的损失函数的值不低于预设阈值时,令i=i+1,并重复执行A1-A6;当所述第一子策略网络W i+1对应的损失函数的值低于所述预设阈值时,将所述第一子策略网络W i+1确定为第一目标子策略网络;
其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
该实施例以策略网络对应的损失函数的值低于预设阈值时停止训练。当然,本申请实施例还可以以策略网络对应的损失函数的值高于预设阈值时停止训练等,此处不作具体限定。
其中,上述作为第一种实现方式的各个方案中,所述第一子策略网络W i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息(包含目标状态信息S i、目标状态信息S i+1)、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理得到,其中,所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。
(2)在步骤402之前,作为第二种实现方式,所述方法还包括:
所述第一网络设备对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络。
其中,上述第一目标子策略网络可基于第一目标子价值网络进行训练得到。上述K个网络设备对应K个目标子价值网络。上述第一网络设备对应第一目标子价值网络。
所述第一网络设备对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络,包括:
所述第一网络设备根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值不低于预设值时,所述第一网络设备将第一子策略网络W i确定为第一目标子策略网络,其中,i为正整数,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的;所述第二调度信息为所述第一网络设备基于所述第一区域的目标状态信息S i和所述第一子策略网络W i生成的;其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
其中,上述以当前进行的训练为第i次训练进行说明。
具体地,所述第一网络设备对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络,包括:
S6、所述第一网络设备获取所述第一区域的目标状态信息S i,其中,i为正整数;
S7、所述第一网络设备将所述目标状态信息S i输入至第一子策略网络W i进行处理, 并对所述第一子策略网络W i的输出结果进行处理以得到第二调度信息;
S8、所述第一网络设备向所述第一区域内的终端下发所述第二调度信息,所述第二调度信息被所述第一区域内的终端用于数据传输;
S9、所述第一网络设备获取所述第一区域的目标状态信息S i+1,其中,所述目标状态信息S i+1为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的;
S10、所述第一网络设备根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值低于预设值时,所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络W i+1;其中,所述第一子策略网络W i的评价价值是基于第一子价值网络q i进行处理得到的,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应;令i=i+1,并重复执行S6-S10;当所述性能参数的值不低于所述预设值时,将所述第一子策略网络W i确定为第一目标子策略网络;
其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
上述以当前进行的训练为第i次训练进行说明。其中,上述上一次所述训练即为第i-1次训练。上述下一次所述训练即为第i+1次训练。
其中,该实施例以性能参数的值不低于预设值时停止训练。当然,本申请实施例并不限定上述条件。本申请实施例还可以以性能参数的值不高于预设值时停止训练。例如通过对上述预设值取反构成新的预设值等。
作为第二种实现方式的第二种方案,所述第一网络设备对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络,包括:
所述第一网络设备对第一初始子策略网络进行M次迭代训练,以得到第一目标子策略网络,所述M为正整数;
其中,在进行第i次迭代训练时,所述第一网络设备获取所述第一区域的目标状态信息S i,i为正整数;
所述第一网络设备将所述目标状态信息S i输入至第一子策略网络W i进行处理,并对所述子策略网络W i的输出结果进行处理以得到第二调度信息;
所述第一网络设备向所述第一区域内的终端下发所述第二调度信息,所述第二调度信息被所述第一区域内的终端用于数据传输;
所述第一网络设备获取所述第一区域的目标状态信息S i+1,其中,所述目标状态信息S i+1为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的;
所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络W i+1;其中,所述第一子策略网络W i的评价价值是基于第一子价值网络q i进行处理得到的,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值 网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应;
其中,当i=M时,所述第一子策略网络W i+1为第一目标子策略网络;当i=1时,所述第一子策略网络W i为第一初始子策略网络。
上述实施例以迭代训练的次数达到预设次数时停止训练。当然,本申请实施例并不限定上述条件。本申请实施例还可以以更新参数的次数达到预设次数时停止训练等。此处不作具体限定。
作为第二种实现方式的第三种方案,其中,所述第一网络设备对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络,包括:
B1、所述第一网络设备获取所述第一区域的目标状态信息S i,其中,i为正整数;
B2、所述第一网络设备将所述目标状态信息S i输入至第一子策略网络W i进行处理,并对所述第一子策略网络W i的输出结果进行处理以得到第二调度信息;
B3、所述第一网络设备向所述第一区域内的终端下发所述第二调度信息,所述第二调度信息被所述第一区域内的终端用于数据传输;
B4、所述第一网络设备获取所述第一区域的目标状态信息S i+1,其中,所述目标状态信息S i+1为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的;
B5、所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络W i+1;其中,所述第一子策略网络W i的评价价值是基于第一子价值网络q i进行处理得到的,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应;
B6、所述第一网络设备获取所述第一子策略网络W i+1对应的损失函数,当所述第一子策略网络W i+1对应的损失函数的值不低于预设阈值时,令i=i+1,并重复执行B1-B6;当所述第一子策略网络W i+1对应的损失函数的值低于所述预设阈值时,将所述第一子策略网络W i+1确定为第一目标子策略网络;
其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
该实施例以策略网络对应的损失函数的值低于预设阈值时停止训练。当然,本申请实施例还可以以策略网络对应的损失函数的值高于预设阈值时停止训练等,此处不作具体限定。
其中,上述第二种实现方式中的各个方案中,所述第一子策略网络W i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理得到,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。
(3)在步骤402之前,作为第三种实现方式,所述方法还包括:
所述第一网络设备接收集中式网元设备发送的第一目标子策略网络的参数,其中,所述K个目标子策略网络的参数均相同。
其中,上述调度控制系统还包括集中式网元设备。第一网络设备可接收集中式网元设备发送的第一目标子策略网络的参数,进而所述第一网络设备将所述第一区域的目标状态信息输入至第一目标子策略网络进行处理,并对所述第一目标子策略网络的输出结果进行处理以得到所述第一调度信息。
上述集中式网元设备为核心网设备或基站集中式单元CU设备。其中,核心网设备如可以是4G通信或5G通信中的核心网设备,也可以是未来通信网络中的核心网设备,本申请并不对实施该技术方案的核心网设备或者基站的通信技术代次或者应用领域进行限制。上述基站集中式单元CU设备如可以是5G通信中的基站集中式单元CU设备。
403、所述第一网络设备向所述第一区域内的终端下发所述第一调度信息,所述第一调度信息被所述第一区域内的终端用于数据传输。
上述调度方法可应用于如下场景。例如,蜂窝网络多小区调度问题,每个小区都需要针对本小区的用户进行调度决策。又如异构网络中,存在宏站Macrocell、微微站Picocell和家庭基站Femtocell等多个不同等级和覆盖范围的基站,这些基站需要针对其覆盖范围内注册在其名下的用户进行调度决策等。
如图5所示,基站4001可从所述基站4001所覆盖的区域中获取包含终端4002在内的各个终端的目标状态信息。其中,该目标状态信息包括网络状态信息和用户数据包缓存信息等。该各个终端可以是基站4001覆盖的小区内的各终端。或者,该各个终端也可以是某个基站覆盖的小区中的某个宏站、微微站或家庭基站所覆盖范围内的注册终端等。基站4001根据其所覆盖的区域中各个终端的目标状态信息得到调度信息,进而基站4001向包含终端4002在内的各个终端下发该调度信息,以便各终端根据该调度信息进行数据传输。
本申请实施例基于K个网络设备中的第一网络设备通过获取第一区域的目标状态信息,然后基于目标状态信息和与该第一网络设备对应的第一目标子策略网络得到调度信息,进而向第一区域内的终端下发该调度信息,以便第一区域内的各终端根据该调度信息进行数据传输。采用该手段,其中,各个网络设备分别对应各自的策略网络进行调度控制,实现多智能体进行调度控制,提升了调度控制系统的性能。且,通过分布式的部署策略网络,提高了调度控制方案的可行性。
下面具体介绍调度算法的训练方法。参照图6所示,为本申请实施例提供的一种调度算法的训练方法,该方法应用于调度算法训练系统,其中,该调度算法训练系统提供一种由中心式的价值网络(C网络)和分布式的策略网络(A网络)构成的多智能体强化学习MARL架构。通过该架构进行训练可得到一个目标价值网络和K个目标子策略网络。其中,该K个目标子策略网络与K个网络设备一一对应。上述K个网络设备可以基于所得 到的对应的目标子策略网络实现上述调度。
其中,上述中心式的价值网络可部署在集中式网元设备上。该集中式网元设备可以是核心网设备或基站的集中单元(Centralized Unit,CU)设备。上述分布式的子策略网络可部署在基站的分布单元(Distributed Unit,DU)设备上。
基于上述中心式的价值网络可部署在集中式网元设备上,本申请实施例提供一种调度算法的训练方法,包括步骤601-602,具体如下:
601、集中式网元设备获取训练数据;
602、所述集中式网元设备根据所述训练数据对初始价值网络进行迭代训练,以得到目标价值网络。
其中,根据上述迭代训练的终止条件的不同,上述方法可包括至少三种实现方式。
作为第一种实现方式,所述训练数据包括K个网络设备所覆盖的K个区域中每个区域的目标状态信息S i,所述K个区域与所述K个网络设备一一对应,K为大于1的整数,i为正整数,所述集中式网元设备根据所述训练数据对初始价值网络进行迭代训练,以得到目标价值网络,包括:
S11、所述集中式网元设备获取所述K个网络设备所覆盖的K个区域中每个区域的目标状态信息S i+1,其中,所述K个区域中每个区域的目标状态信息S i+1为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后得到的,所述K个区域分别对应的第二调度信息为将所述K个区域中每个区域的目标状态信息S i分别输入至K个子策略网络W i进行处理,并对所述K个子策略网络W i的输出结果分别进行处理得到的,所述子策略网络W i是基于上一次所述训练的子策略网络W i-1得到的,所述K个子策略网络与所述K个网络设备一一对应;
S12、所述集中式网元设备根据所述K个区域的K个目标状态信息S i+1,得到性能参数,当所述性能参数的值低于预设值时,所述集中式网元设备将所述K个区域的K个目标状态信息S i、K个子策略网络W i的输出结果、K个区域的K个状态信息S i+1和所述K个区域对应的反馈收益均输入至价值网络Q i进行处理,以得到K个子策略网络分别对应的评价价值;所述集中式网元设备调整所述价值网络Q i中的参数,以得到用于下一次训练的价值网络Q i+1;令i=i+1,并重复执行S11-S12;当所述性能参数的值不低于所述预设值时,将所述价值网络Q i确定为目标价值网络;
其中,当i=1时,所述价值网络Q i为初始价值网络。
也就是说,本申请实施例中当系统性能参数达到设定的阈值时,则停止迭代训练,进而得到目标价值网络。上述系统性能参数可包括吞吐、公平性、丢包率、时延等。其中,可通过对目标状态信息进行处理,进而可得到性能参数。如基于目标状态信息中的网络状态信息和用户数据包缓存信息计算吞吐、公平性、丢包率、时延等系统性能参数。
作为第二种实现方式,当初始价值网络迭代训练的次数达到预设的N次时,则停止迭代训练,进而得到目标价值网络。
具体地,所述训练数据包括K个网络设备所覆盖的K个区域中每个区域的目标状态信息S i,所述K个区域与所述K个网络设备一一对应,i为正整数,所述集中式网元设备 根据所述训练数据对初始价值网络进行迭代训练,以得到目标价值网络,包括:
所述集中式网元设备对初始价值网络进行N次迭代训练,以得到目标价值网络,所述N为正整数。
其中,在进行第i次迭代训练时,所述集中式网元设备获取所述K个网络设备所覆盖的K个区域中每个区域的状态信息S i+1,其中,所述K个区域的K个状态信息S i+1为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后得到的,所述K个区域分别对应的第二调度信息为将所述K个区域的K个目标状态信息S i分别输入至K个子策略网络W i进行处理,并对所述K个子策略网络W i的输出结果分别进行处理得到的,所述子策略网络W i是基于子策略网络W i-1得到的,所述K个子策略网络与所述K个网络设备一一对应;
所述集中式网元设备将所述K个网络设备所覆盖的K个区域中每个区域的状态信息S i、所述K个子策略网络W i的输出结果、所述K个基站所覆盖的K个区域中每个区域的目标状态信息S i+1和所述K个区域对应的反馈收益均输入至价值网络Q i进行处理,以得到所述K个子策略网络W i的评价价值;其中,所述K个区域对应的反馈收益为所述K个区域的终端根据所述K个区域分别对应的第二调度信息进行数据传输后得到的;
所述集中式网元设备调整所述价值网络Q i中的参数,以得到价值网络Q i+1
其中,当i=N时,所述价值网络Q i+1为目标价值网络;当i=1时,所述价值网络Q i为初始价值网络。
作为第三种实现方式,当得到的价值网络的损失函数低于预设阈值时,则停止迭代训练,进而得到目标价值网络。
具体地,所述训练数据包括K个网络设备所覆盖的K个区域中每个区域的目标状态信息S i,所述K个区域与所述K个网络设备一一对应,i为正整数,所述集中式网元设备根据所述训练数据对初始价值网络进行迭代训练,以得到目标价值网络,包括:
C1、所述集中式网元设备获取所述K个网络设备所覆盖的K个区域中每个区域的目标状态信息S i+1,其中,所述K个区域的K个目标状态信息S i+1为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后得到的,所述K个区域分别对应的第二调度信息为将所述K个区域的K个目标状态信息S i分别输入至K个子策略网络W i进行处理,并对所述K个子策略网络W i的输出结果分别进行处理得到的,所述子策略网络W i是基于子策略网络W i-1得到的,所述K个子策略网络与所述K个网络设备一一对应;
C2、所述集中式网元设备将所述K个网络设备所覆盖的K个区域中每个区域的目标状态信息S i、所述K个子策略网络W i的输出结果、所述K个基站所覆盖的K个区域中每个区域的目标状态信息S i+1和所述K个区域对应的反馈收益均输入至价值网络Q i进行处理,以得到所述K个子策略网络W i的评价价值;其中,所述K个区域对应的反馈收益为所述K个区域的终端根据所述K个区域分别对应的第二调度信息进行数据传输后得到的;
C3、所述集中式网元设备调整所述价值网络Q i中的参数,以得到价值网络Q i+1
C4、所述集中式网元设备获取所述价值网络Q i+1对应的损失函数,当所述价值网络Q i+1对应的损失函数的值不低于预设阈值时,令i=i+1,并重复执行C1-C4;当所述价值网络Q i+1对应的损失函数的值低于所述预设阈值时,将所述价值网络Q i+1确定为目标价值网络;
其中,当i=1时,所述价值网络Q i为初始价值网络。
上述各实施例以中心式的价值网络部署在集中式网元设备上为例进行调度算法的训练方法的说明。对于上述分布式的子策略网络部署在基站的分布单元(Distributed Unit,DU)设备上时,本申请实施例还提供一种调度算法的训练方法,该方法应用于调度算法训练系统,该调度算法训练系统包括K个基站,K为大于1的整数,所述方法包括步骤603-604,具体如下:
603、第一网络设备获取训练数据;其中,所述第一网络设备为所述K个网络设备中的任意一个;
604、所述第一网络设备根据所述训练数据对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络,其中,所述第一初始子策略网络为K个初始子策略网络中、所述第一网络设备对应的初始子策略网络,所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络,所述K个初始子策略网络、K个目标子策略网络分别与所述K个网络设备一一对应。
相应地,根据上述迭代训练的终止条件的不同,上述方法可包括至少三种实现方式。
其中,针对第一网络设备对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络的具体实现方式,可参照在步骤402之前,作为第一种实现方式的三种方案的介绍,在此不再赘述。
基于上述各实施例得到的目标子策略网络,基站进而可实现调度。
本申请实施例基于中心式的价值网络和分布式的策略网络构成的多智能体MARL架构进行训练,得到一个目标价值网络和多个分布式的目标策略网络。该分布式的目标策略网络可用于网络设备进行调度,避免了单智能体DRL完全中心式的调度,提高了方案可行性。
如图6所示,其中,各A网络可从通信系统对应的环境中获取与该A网络对应的区域的目标状态信息s。各A网络可基于上述目标状态信息s得到决策动作a。环境执行完各决策动作a后反馈收益r给C网络。C网络通过获取环境的总目标状态信息以及下一时刻全局状态,并基于上述反馈收益r,各决策动作a,确定出各A网络分别对应的评价价值v。在上述架构中,如与基站K对应的策略网络A k从环境获得基站K所覆盖的区域对应的目标状态信息s k,价值网络C从环境获得当前全局状态,即(s 1、s 2…s k)。策略网络A k作出决策a k。环境执行所有策略网络作出的决策后,反馈收益r给价值网络。价值网络根据当前全局状态s,各策略网络的动作a,反馈收益r以及下一时刻全局状态s’,输出各策略网络的评价价值v,并更新价值网络中的参数。上述下一时刻全局状态s’为环境执行所有策略网络作出的决策后得到的全局状态信息。其中,策略网络A k根据当前 状态s k,动作a k,下一时刻状态s k’和价值网络输出的评价价值v k,更新自身网络参数。
其中,策略网络和价值网络的参数更新可以同步,也可以是异步的。即可以同时更新,也可以某些调度周期内只更新价值网络或只更新策略网络等。此处不作具体限定。
示例性地,在如图7所示的多小区蜂窝网络场景中可部署上述MARL框架。以三个小区联合调度为例。参与联合调度的小区数可以根据小区间干扰情况进行设置,如将互相干扰较严重的多个小区放在一起联合调度。如图7所示,中心式的价值网络可部署在核心网设备或基站的集中单元(Centralized Unit,CU)上。分布式的策略网络部署在基站的分布单元(Distributed Unit,DU)上。各基站可以基于对应的目标策略网络实现调度控制。
如图8所示,上述MARL框架还可部署在多等级异构网络中。对于一个宏站覆盖范围内的小区,存在一个宏站、多个微微站和家庭基站等。此时,可以将价值网络部署在宏站上,策略网络部署在宏站、微微站和家庭基站上。
上述实施例以中心式的价值网络和分布式的策略网络组成的多智能体强化学习MARL架构进行说明。本申请实施例还提供一种分布式的价值网络和分布式的策略网络组成的多智能体强化学习MARL架构,如图9A、图9B所示。其中,上述分布式的价值网络可部署在集中式网元设备上,该集中式网元设备可以是核心网设备或基站的集中单元(Centralized Unit,CU)设备上。上述分布式的策略网络可部署在基站的分布单元(Distributed Unit,DU)设备上。通过该架构进行训练可得到K个目标子价值网络和K个目标子策略网络。上述K个目标子价值网络、K个目标子策略网络分别与K个网络设备一一对应。
上述K个网络设备可以基于所得到的对应的目标子策略网络实现上述调度。
基于上述分布式的价值网络可部署在集中式网元设备上,本申请实施例提供一种调度算法的训练方法,包括步骤901-902,具体如下:
901、集中式网元设备获取训练数据;
902、所述集中式网元设备根据所述训练数据对第一初始子价值网络进行迭代训练,以得到第一目标子价值网络。
其中,所述第一初始子价值网络为K个初始子价值网络中、第一网络设备所对应的初始子价值网络,所述第一目标子价值网络为K个目标子价值网络中、所述第一网络设备对应的目标子价值网络,其中,所述第一网络设备为K个网络设备中的任意一个,所述K个初始子价值网络、所述K个目标子价值网络分别与所述K个网络设备一一对应。
进一步地,根据上述迭代训练的终止条件的不同,上述方法可包括至少三种实现方式。
作为第一种实现方式,所述训练数据包括所述第一网络设备所覆盖的第一区域的目标状态信息S i,i为正整数,所述集中式网元设备根据所述训练数据对第一初始子价值网络进行迭代训练,以得到第一目标子价值网络,包括:
S13、所述集中式网元设备获取所述第一区域的目标状态信息S i+1,其中,所述第一区域的目标状态信息S i+1为所述第一区域内的用户根据所述第一区域对应的第二调度信息进行数据传输后得到的,所述第一区域对应的第二调度信息为将所述第一区域的目标状 态信息S i输入至第一子策略网络W i进行处理,并对所述第一子策略网络W i的输出结果进行处理得到的,所述第一子策略网络W i是基于上一次所述训练的第一子策略网络W i-1得到的;
S14、所述集中式网元设备根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值低于预设值时,所述集中式网元设备将所述第一区域的目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1、所述第一区域对应的反馈收益以及除所述第一网络设备对应的第一子价值网络q i之外的其他K-1个网络设备分别对应的子价值网络的信息均输入至所述第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值,其中,所述第一区域对应的反馈收益为所述第一区域内的用户根据所述第二调度信息进行数据传输后得到的;所述集中式网元设备调整所述第一子价值网络q i中的参数,以得到用于下一次所述训练的第一子价值网络q i+1;令i=i+1,并重复执行S13-S14;当所述性能参数的值不低于所述预设值时,将所述第一子价值网络q i确定为第一目标子价值网络;
其中,当i=1时,所述第一子价值网络q i为第一初始子价值网络。
也就是说,本申请实施例中当系统性能参数达到设定的阈值时,则停止迭代训练,进而得到目标子价值网络。
作为第二种实现方式,当第一初始子价值网络迭代训练的次数达到预设的N次时,则停止迭代训练,进而得到第一目标子价值网络。
具体地,所述训练数据包括所述第一网络设备所覆盖的第一区域的状态信息S i,i为正整数,所述集中式网元设备根据所述训练数据对第一初始子价值网络进行迭代训练,以得到第一目标子价值网络,包括:
所述集中式网元设备对第一初始子价值网络进行N次迭代训练,以得到第一目标子价值网络,所述N为正整数。
其中,在进行第i次迭代训练时,所述集中式网元设备获取所述第一区域的目标状态信息S i+1,其中,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后得到的,所述第一区域对应的第二调度信息为将所述第一区域的目标状态信息S i输入至第一子策略网络W i进行处理,并对所述第一子策略网络W i的输出结果进行处理得到的,所述第一子策略网络W i是基于上一次所述训练的第一子策略网络W i-1得到的;
所述集中式网元设备将所述第一网络设备所覆盖的第一区域的目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1、所述第一区域对应的反馈收益以及除所述第一网络设备对应的第一子价值网络q i之外的其他K-1个网络设备分别对应的子价值网络的信息均输入至所述第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的;
所述集中式网元设备调整所述第一子价值网络q i中的参数,以得到用于下一次所述训练的第一子价值网络q i+1
其中,当i=N时,所述第一子价值网络q i+1为第一目标子价值网络;当i=1时,所述第一子价值网络q i为第一初始子价值网络。
作为第三种可选的实现方式,当得到的第一子价值网络的损失函数低于预设阈值时,则停止迭代训练,进而得到第一目标子价值网络。通过对K个初始子价值网络分别进行迭代训练进而得到K个目标子价值网络。
具体地,所述训练数据包括所述第一网络设备A所覆盖的第一区域的目标状态信息S i,i为正整数,所述集中式网元设备根据所述训练数据对初始子价值网络进行迭代训练,以得到目标子价值网络,包括:
E1、所述集中式网元设备获取所述第一区域的目标状态信息S i+1,其中,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后得到的,所述第一区域对应的第二调度信息为将所述第一区域的目标状态信息S i输入至第一子策略网络W i进行处理,并对所述第一子策略网络W i的输出结果进行处理得到的,所述第一子策略网络W i是基于上一次所述训练的第一子策略网络W i-1得到的;
E2、所述集中式网元设备将所述第一区域的目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1、所述第一区域对应的反馈收益以及除所述第一网络设备对应的第一子价值网络q i之外的其他K-1个网络设备分别对应的子价值网络的信息均输入至所述第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的;
E3、所述集中式网元设备调整所述第一子价值网络q i中的参数,以得到用于下一次所述训练的第一子价值网络q i+1
E4、所述集中式网元设备获取所述第一子价值网络q i+1对应的损失函数,当所述第一子价值网络q i+1对应的损失函数的值不低于预设阈值时,令i=i+1,并重复执行E1-E4;当所述第一子价值网络q i+1对应的损失函数的值低于所述预设阈值时,将所述第一子价值网络q i+1确定为第一目标子价值网络;
其中,当i=1时,所述第一子价值网络q i为第一初始子价值网络。
上述各实施例以分布式的价值网络部署在集中式网元设备上为例进行调度算法的训练方法的说明。对于上述分布式的子策略网络部署在基站的分布单元(Distributed Unit,DU)设备上时,本申请实施例还提供一种调度算法的训练方法,该方法应用于调度算法训练系统,该调度算法训练系统包括K个网络设备,K为大于1的整数,所述方法包括步骤903-904,具体如下:
903、第一网络设备获取训练数据;其中,所述基站A为所述K个基站中的任意一个;
904、所述第一网络设备根据所述训练数据对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络,其中,所述第一初始子策略网络为K个初始子策略网络中、所述第一网络设备对应的初始子策略网络,所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络,所述K个初始子策略网络、K个目 标子策略网络分别与所述K个网络设备一一对应。
相应地,根据上述迭代训练的终止条件的不同,上述方法可包括至少三种实现方式。
其中,所述训练数据包括第一区域的目标状态信息S i,i为正整数,其中,所述第一区域为所述第一网络设备所覆盖的区域。
所述第一网络设备根据所述训练数据对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络的具体实现方式,可参阅上述在步骤402之前,作为第二种实现方式的各个方案的介绍,在此不再赘述。
基于上述各实施例得到的目标子策略网络,基站进而可实现调度。
上述实施例以分布式的价值网络部署在集中式网元设备上,分布式的策略网络部署在基站的分布单元设备上为例进行说明。可替代的,上述分布式的价值网络和分布式的策略网络还可以均部署在基站的分布单元设备上。本申请实施例还提供一种调度算法的训练方法,所述方法应用于调度算法训练系统,所述调度算法训练系统包括K个网络设备,K为大于1的整数,包括步骤905-906,具体如下:
905、第一网络设备获取训练数据;其中,所述第一网络设备为所述K个网络设备中的任意一个;
906、所述第一网络设备根据所述训练数据对第一初始子价值网络、第一初始子策略网络分别进行迭代训练,以得到第一目标子价值网络、第一目标子策略网络,其中,所述第一初始子价值网络为K个初始子价值网络中与所述第一网络设备对应的初始子价值网络,所述第一目标子价值网络为K个目标子价值网络中与所述第一网络设备对应的目标子价值网络,所述第一初始子策略网络为K个初始子策略网络中与所述第一网络设备对应的初始子策略网络,所述第一目标子策略网络为K个目标子策略网络中与所述第一网络设备对应的目标子策略网络,所述K个初始子价值网络、K个目标子价值网络、K个初始子策略网络、K个目标子策略网络分别与所述K个网络设备一一对应。
其中,所述训练数据包括第一区域的状态信息,其中,所述第一区域为所述第一网络设备所覆盖的区域,所述第一网络设备根据所述训练数据对第一初始子价值网络、第一初始子策略网络分别进行迭代训练,以得到第一目标子价值网络、第一目标子策略网络,包括:
S26、所述第一网络设备将所述第一区域的目标状态信息S i输入至第一子策略网络W i进行处理,并对所述第一子策略网络W i的输出结果进行处理以得到第二调度信息,其中,i为正整数;
S27、所述第一网络设备获取所述第一区域的目标状态信息S i+1,其中,所述目标状态信息S i+1为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的;
S28、所述第一网络设备根据所述目标状态信息S i+1,得到性能参数,当所述性能参数的值低于预设值时,所述第一网络设备将所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和反馈收益均输入至第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值;所述第一网络设备调整所述第一子价值网络 q i中的参数,以得到用于下一次所述训练的第一子价值网络q i+1;其中,所述反馈收益为所述第一区域内的终端根据所述第二调度信息进行数据传输后得到的;所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络W i+1;令i=i+1,并重复执行S26-S28;当所述性能参数的值不低于所述预设值时,将所述第一子价值网络q i确定为第一目标子价值网络,将所述第一子策略网络W i确定为第一目标子策略网络;
其中,当i=1时,所述第一子价值网络q i为第一初始子价值网络,所述第一子策略网络W i为第一初始子策略网络。
上述仅以性能参数作为训练结束的判断条件。其中,以训练次数、网络的损失函数的值等作为训练结束的判断条件的具体处理手段可参阅上述介绍,在此不再赘述。
如图9A所示,该架构中有多个分布式的价值网络,每个价值网络单独为所对应的策略网络提供评价价值。多个价值网络之间通过一条通信总线连接,用于交互信息。在这个架构中,策略网络A k从环境获得自身对应的状态s k,价值网络C k从环境获得自身对应的状态s k。策略网络A k作出决策a k,环境执行所有策略网络作出的决策后,反馈收益r k给价值网络C k。价值网络根据当前状态s k、策略网络的动作a k、收益r k、下一时刻状态s k’,以及经过通信总线得到的其他价值网络的信息,输出策略网络A k的评价价值v k,并更新自身网络参数。策略网络A k根据当前状态s k、动作a k、下一时刻状态s k’和价值网络输出的评价价值v k,更新自身网络参数。其中,上述下一时刻状态s k’为相应环境执行策略网络作出的决策后得到的状态。上述多个价值网络经过通信总线交互的信息可以是各价值网络对应的状态s k,动作a k,收益r k,也可以是其他价值网络的输出结果、其他价值网络的参数或者是其他价值网络更新的梯度值等。同样,这个框架下,策略网络和价值网络参数的更新可以是同步的,也可以是异步的。
进一步地,如图9B所示,策略网络之间也可以互传信息。其中,经过通信总线可得到其他策略网络的信息。该其他策略网络的信息可包括其他策略网络的输出结果、其他策略网络的参数或者是其他策略网络更新的梯度值等。如策略网络A k可根据当前状态s k、动作a k、下一时刻状态s k’、价值网络输出的评价价值v k以及其他策略网络的信息进而来更新自身网络参数。
如图10所示,在多小区蜂窝网络场景中部署上述MARL框架。参与联合调度的小区数可以根据小区间干扰情况进行设置,如将互相干扰较严重的多个小区放在一起联合调度。以3小区联合调度为例。如图10所示,分布式的价值网络和分布式的策略网络均部署在基站的分布单元(Distributed Unit,DU)上。可替代的,分布式的价值网络也可以部署在核心网设备或基站的CU上。其中,分布式的价值网络部署在核心网设备或基站的CU上,有助于减少价值网络之间的通信开销。
上述布式价值网络和分布式策略网络对应的MARL框架也可以用于异构网络、认知无线网络等存在多等级网络的系统的调度。以异构网络为例,如图11所示,对于一个宏站覆盖范围内的小区,存在一个宏站、多个微微站和多个家庭基站。此时,可以将价值网 络和策略网络部署在宏站、微微站和家庭基站上。其中,也可以将多个分布式的价值网络部署在宏站上,以便减小价值网络间通信的开销。
本申请实施例基于分布式的价值网络和分布式的策略网络构成的多智能体MARL架构进行训练,得到多个目标价值网络和多个分布式的目标策略网络。该分布式的目标策略网络可用于网络设备进行调度,避免了单智能体DRL完全中心式的调度,提高了方案可行性。
本申请实施例还提供一种中心式的价值网络和中心式的策略网络组成的多智能体强化学习MARL架构。如图12所示,该架构包括中心式的价值网络和中心式的策略网络。通过该架构进行训练可得到目标价值网络和目标策略网络。训练结束后将目标策略网络下发给各个基站,可用于分布式地完成调度。
其中,中心式的价值网络和中心式的策略网络可以均部署在集中式网元设备上,如核心网设备或基站的集中单元(Centralized Unit,CU)上。为此,本申请实施例提供一种调度算法的训练方法,所述方法应用于调度算法训练系统,所述调度算法训练系统包括集中式网元设备,所述方法包括步骤1201-1203,具体如下:
1201、所述集中式网元设备获取训练数据;
1202、所述集中式网元设备根据所述训练数据对初始价值网络、初始策略网络分别进行迭代训练,以得到目标价值网络、目标策略网络;
其中,所述训练数据包括K个网络设备所覆盖的K个区域的目标状态信息S i,其中,i为正整数,所述集中式网元设备根据所述训练数据对初始价值网络、初始策略网络分别进行迭代训练,以得到目标价值网络、目标策略网络,包括:
S29、所述集中式网元设备将所述K个网络设备所覆盖的K个区域的目标状态信息S i输入至策略网络w i进行处理,并对所述策略网络w i的输出结果进行处理以得到第二调度信息;
S30、所述集中式网元设备获取所述K个区域的目标状态信息S i+1,其中,所述目标状态信息S i+1为所述K个区域内的终端根据所述第二调度信息进行数据传输后得到的状态信息;
S31、所述集中式网元设备根据所述K个区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值低于预设值时,所述集中式网元设备将所述K个区域的目标状态信息S i、所述策略网络w i的输出结果、所述目标状态信息S i+1和反馈收益均输入至价值网络Q i进行处理,以得到所述策略网络w i的评价价值;所述集中式网元设备调整所述价值网络Q i中的参数,以得到价值网络Q i+1;其中,所述反馈收益为所述K个区域内的终端根据所述第二调度信息进行数据传输后得到的;所述集中式网元设备根据所述K个区域的目标状态信息S i、所述策略网络w i的输出结果、所述目标状态信息S i+1和所述评价价值,调整所述策略网络w i中的参数,以得到策略网络w i+1;令i=i+1,并重复执行S29-S31;当所述性能参数的值不低于所述预设值时,将所述价值网络Q i确定为目标价值网络,将所述策略网络w i确定为目标策略网络;
其中,当i=1时,所述价值网络Q i为初始价值网络,所述策略网络w i为初始策略网络。
上述仅以性能参数作为训练结束的判断条件。其中,以训练次数、网络的损失函数的值等作为训练结束的判断条件的具体处理手段可参阅上述介绍,在此不再赘述。
1203、所述集中式网元设备将所述目标策略网络的参数发送至所述K个网络设备。
其中,集中式网元设备可将上述所得的目标策略网络下发给各个网络设备,进而可以实现分布式的调度,避免了单智能体DRL完全中心式的调度,提高了方案可行性。
如图12所示,中心式的A网络和C网络均获取全局的目标状态信息s。然后,中心式的A网络为蜂窝网络中各小区或异构网络中各级基站做出决策动作a k。当动作a k被执行后,系统状态更新,并反馈收益r给中心式的C网络。中心式的C网络根据收益r、动作a k、目标状态信息s、下一时刻全局状态s’,给中心式的A网络计算评价价值v,同时更新自身网络参数。中心式的A网络和C网络更新自身网络参数。若未到达训练终止条件则重复执行上述步骤。当到达训练终止条件,则将中心式的A网络下发至蜂窝网络中的各小区基站或异构网络中的各级基站。其中,上述终止条件包括当神经网络的更新次数达到设定的阈值,或系统性能(吞吐/公平性/丢包率/时延)达到设定的阈值,或神经网络的损失函数低于设定的阈值等。
如图13所示,中心式的价值网络和策略网络可以部署在多小区蜂窝网络的核心网设备或CU上。其中,经过上述训练后,可将中心式的策略网络复制下发给各小区基站,用于进行调度。中心式的价值网络和策略网络还可以部署在多等级异构网络的宏站上。如图14所示,其中,经过上述训练后,可将中心式的策略网络复制下发给各等级基站,用于进行调度。
进一步地,本申请实施例还提供一种调度控制系统,所述调度控制系统包括K个网络设备,K为大于1的整数,其中,第一网络设备为所述K个网络设备中的任意一个,所述第一网络设备用于:
获取第一区域的目标状态信息,其中,所述第一区域为所述第一网络设备所覆盖的区域,所述目标状态信息包括网络状态信息和用户数据包缓存信息;
基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息,其中,所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络,所述K个目标子策略网络与所述K个网络设备一一对应;
向所述第一区域内的终端下发所述第一调度信息,所述第一调度信息被所述第一区域内的终端用于数据传输。
其中,在基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前,所述第一网络设备还用于:
对第一初始子策略网络进行迭代训练,以得到所述第一目标子策略网络;
其中,对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络,具体包括:
根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值不低于 预设值时,将第一子策略网络W i确定为第一目标子策略网络,其中,i为正整数,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的;所述第二调度信息为基于所述第一区域的目标状态信息S i和所述第一子策略网络W i生成的,所述目标状态信息S i是第i次所述训练的目标状态信息;其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
进一步地,当所述性能参数的值低于所述预设值时,所述第一网络设备用于:
根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于价值网络Q i进行处理得到的,所述价值网络Q i是基于上一次所述训练的价值网络得到的。
进一步地,所述第一子策略网络W i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理得到,其中,所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。
作为另一种可选的实现方式,当所述性能参数的值低于所述预设值时,所述第一网络设备用于:
根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于第一子价值网络q i进行处理得到的,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
进一步地,所述第一子策略网络W i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理得到,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。
作为另一种可选的实现方式,所述调度控制系统还包括集中式网元设备,在基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前,所述第一网络设备还用于:
接收所述集中式网元设备发送的第一目标子策略网络的参数,其中,所述K个目标子策略网络的参数均相同,其中,所述集中式网元设备为核心网设备或基站集中式单元CU设备。
在一方面,本申请实施例还提供一种调度算法训练系统,所述调度算法训练系统包括 K个网络设备,K为大于1的整数,第一网络设备为所述K个网络设备中的任意一个,所述第一网络设备用于:
获取训练数据;
根据所述训练数据对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络;其中,所述第一初始子策略网络为K个初始子策略网络中、所述第一网络设备对应的初始子策略网络;所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络;所述K个初始子策略网络、所述K个目标子策略网络分别与所述K个网络设备一一对应。
其中,所述训练数据包括第一区域的目标状态信息S i+1,其中,所述第一区域为所述第一网络设备所覆盖的区域,所述第一网络设备具体用于:
根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值不低于预设值时,将第一子策略网络W i确定为所述第一目标子策略网络,其中,i为正整数,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的;所述第二调度信息为基于所述第一区域的目标状态信息S i和所述第一子策略网络W i生成,所述目标状态信息S i是第i次所述训练的目标状态信息;其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
进一步地,当所述性能参数的值低于所述预设值时,所述第一网络设备用于:
根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于价值网络Q i进行处理得到的,所述价值网络Q i是基于上一次训练的价值网络得到的。
进一步地,所述第一子策略网络W i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备分别对应的各子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理得到,其中,所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。
作为另一种可选的实现方式,当所述性能参数的值低于所述预设值时,所述第一网络设备用于:
根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于第一子价值网络q i进行处理得到的,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
其中,所述第一子策略网络W i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子 价值网络的信息均输入至所述第一子价值网络q i进行处理得到,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。
进一步地,所述第一网络设备还用于:
将第一子价值网络q i确定为第一目标子价值网络,其中,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
进一步地,当所述性能参数的值低于所述预设值时,所述第一网络设备还用于:
将所述第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的;所述第一网络设备调整所述第一子价值网络q i中的参数,以得到用于下一次所述训练的第一子价值网络。
作为再一种可选的实现方式,所述调度算法训练系统还包括集中式网元设备,当所述性能参数的值不低于所述预设值时,所述集中式网元设备用于:
将价值网络Q i确定为目标价值网络,其中,所述价值网络Q i是基于上一次所述训练的价值网络得到的。
其中,当所述性能参数的值低于所述预设值时,所述集中式网元设备用于:
将所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理以得到K个评价价值,其中,所述K个评价价值与所述K个子策略网络一一对应;
将所述K个评价价值分别发送至所述K个网络设备;
调整所述价值网络Q i中的参数,以得到用于下一次所述训练的价值网络。
作为又一种可选的实现方式,所述调度算法训练系统还包括集中式网元设备,当所述性能参数的值不低于所述预设值时,所述集中式网元设备用于:
将第一子价值网络q i确定为第一目标子价值网络,其中,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
其中,当所述性能参数的值低于所述预设值时,所述集中式网元设备用于:
将所述第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值;其中,所述第一区域对应的反馈收益为所述第一区域 内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的;
调整所述第一子价值网络q i中的参数,以得到用于下一次所述训练的第一子价值网络。
本申请实施例基于K个网络设备中的第一网络设备通过获取第一区域的目标状态信息,然后基于目标状态信息和与该第一网络设备对应的第一目标子策略网络得到调度信息,进而向第一区域内的终端下发该调度信息,以便第一区域内的各终端根据该调度信息进行数据传输。采用该手段,其中,各个网络设备分别对应各自的策略网络进行调度控制,实现多智能体进行调度控制,提升了调度控制系统的性能。且,通过分布式的部署策略网络,提高了调度控制方案的可行性。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述任一个方法中的一个或多个步骤。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机或处理器上运行时,使得计算机或处理器执行上述任一个方法中的一个或多个步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何在本申请实施例揭露的技术范围内的变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims (39)

  1. 一种调度方法,其特征在于,所述方法应用于调度控制系统,所述调度控制系统包括K个网络设备,K为大于1的整数,所述方法包括:
    第一网络设备获取第一区域的目标状态信息,其中,所述第一网络设备为所述K个网络设备中的任意一个,所述第一区域为所述第一网络设备所覆盖的区域,所述目标状态信息包括网络状态信息和用户数据包缓存信息;
    所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息,其中,所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络,所述K个目标子策略网络与所述K个网络设备一一对应;
    所述第一网络设备向所述第一区域内的终端下发所述第一调度信息,所述第一调度信息被所述第一区域内的终端用于数据传输。
  2. 根据权利要求1所述的方法,其特征在于,所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前,所述方法还包括:
    所述第一网络设备对第一初始子策略网络进行迭代训练,以得到所述第一目标子策略网络;
    其中,所述第一网络设备对第一初始子策略网络进行迭代训练,以得到所述第一目标子策略网络,包括:
    所述第一网络设备根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值不低于预设值时,所述第一网络设备将第一子策略网络W i确定为所述第一目标子策略网络,其中,i为正整数,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的;所述第二调度信息为所述第一网络设备基于所述第一区域的目标状态信息S i和所述第一子策略网络W i生成的,所述目标状态信息S i是第i次所述训练的目标状态信息;其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
  3. 根据权利要求2所述的方法,其特征在于,当所述性能参数的值低于所述预设值时,所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于价值网络Q i进行处理得到的,所述价值网络Q i是基于上一次所述训练的价值网络得到的。
  4. 根据权利要求3所述的方法,其特征在于,所述第一子策略网络W i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理得到,其中,所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K 个区域分别对应的第二调度信息进行数据传输后确定的。
  5. 根据权利要求2所述的方法,其特征在于,当所述性能参数的值低于所述预设值时,所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于第一子价值网络q i进行处理得到的,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
  6. 根据权利要求5所述的方法,其特征在于,所述第一子策略网络W i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理得到,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。
  7. 根据权利要求1所述的方法,其特征在于,所述调度控制系统还包括集中式网元设备,所述第一网络设备基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前,所述方法还包括:
    所述第一网络设备接收所述集中式网元设备发送的第一目标子策略网络的参数,其中,所述K个目标子策略网络的参数均相同,其中,所述集中式网元设备为核心网设备或基站集中式单元CU设备。
  8. 一种调度算法的训练方法,其特征在于,所述方法应用于调度算法训练系统,所述调度算法训练系统包括K个网络设备,K为大于1的整数;所述方法包括:
    第一网络设备获取训练数据,其中,所述第一网络设备为所述K个网络设备中的任意一个;
    所述第一网络设备根据所述训练数据对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络;其中,所述第一初始子策略网络为K个初始子策略网络中、所述第一网络设备对应的初始子策略网络;所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络;所述K个初始子策略网络、所述K个目标子策略网络分别与所述K个网络设备一一对应。
  9. 根据权利要求8所述的方法,其特征在于,所述训练数据包括第一区域的目标状态信息S i+1,其中,所述第一区域为所述第一网络设备所覆盖的区域,所述第一网络设备 根据所述训练数据对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络,包括:
    所述第一网络设备根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值不低于预设值时,所述第一网络设备将第一子策略网络W i确定为所述第一目标子策略网络,其中,i为正整数,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的;所述第二调度信息为所述第一网络设备基于所述第一区域的目标状态信息S i和所述第一子策略网络W i生成,所述目标状态信息S i是第i次所述训练的目标状态信息;其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
  10. 根据权利要求9所述的方法,其特征在于,当所述性能参数的值低于所述预设值时,所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于价值网络Q i进行处理得到的,所述价值网络Q i是基于上一次训练的价值网络得到的。
  11. 根据权利要求10所述的方法,其特征在于,所述第一子策略网络W i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备分别对应的各子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理得到,其中,所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。
  12. 根据权利要求9所述的方法,其特征在于,当所述性能参数的值低于所述预设值时,所述第一网络设备根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于第一子价值网络q i进行处理得到的,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
  13. 根据权利要求12所述的方法,其特征在于,所述第一子策略网络W i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理得到,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述 第一区域对应的第二调度信息进行数据传输后确定的。
  14. 根据权利要求9所述的方法,其特征在于,所述方法还包括:
    所述第一网络设备将第一子价值网络q i确定为第一目标子价值网络,其中,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
  15. 根据权利要求14所述的方法,其特征在于,当所述性能参数的值低于所述预设值时,所述第一网络设备将所述第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的;所述第一网络设备调整所述第一子价值网络q i中的参数,以得到用于下一次所述训练的第一子价值网络。
  16. 根据权利要求9所述的方法,其特征在于,所述调度算法训练系统还包括集中式网元设备,当所述性能参数的值不低于所述预设值时,所述方法还包括:
    所述集中式网元设备将价值网络Q i确定为目标价值网络,其中,所述价值网络Q i是基于上一次所述训练的价值网络得到的。
  17. 根据权利要求16所述的方法,其特征在于,当所述性能参数的值低于所述预设值时,所述集中式网元设备将所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理以得到K个评价价值,其中,所述K个评价价值与所述K个子策略网络一一对应;
    所述集中式网元设备将所述K个评价价值分别发送至所述K个网络设备;
    所述集中式网元设备调整所述价值网络Q i中的参数,以得到用于下一次所述训练的价值网络。
  18. 根据权利要求9所述的方法,其特征在于,所述调度算法训练系统还包括集中式网元设备,当所述性能参数的值不低于所述预设值时,所述方法还包括:
    所述集中式网元设备将第一子价值网络q i确定为第一目标子价值网络,其中,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
  19. 根据权利要求18所述的方法,其特征在于,当所述性能参数的值低于所述预设值时,所述集中式网元设备将所述第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值;其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的;
    所述集中式网元设备调整所述第一子价值网络q i中的参数,以得到用于下一次所述训练的第一子价值网络。
  20. 一种调度控制系统,其特征在于,所述调度控制系统包括K个网络设备,K为大于1的整数,其中,第一网络设备为所述K个网络设备中的任意一个,所述第一网络设备用于:
    获取第一区域的目标状态信息,其中,所述第一区域为所述第一网络设备所覆盖的区域,所述目标状态信息包括网络状态信息和用户数据包缓存信息;
    基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息,其中,所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络,所述K个目标子策略网络与所述K个网络设备一一对应;
    向所述第一区域内的终端下发所述第一调度信息,所述第一调度信息被所述第一区域内的终端用于数据传输。
  21. 根据权利要求20所述的系统,其特征在于,在基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前,所述第一网络设备还用于:
    对第一初始子策略网络进行迭代训练,以得到所述第一目标子策略网络;
    其中,对第一初始子策略网络进行迭代训练,以得到所述第一目标子策略网络,具体包括:
    根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值不低于预设值时,将第一子策略网络W i确定为所述第一目标子策略网络,其中,i为正整数,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的;所述第二调度信息为基于所述第一区域的目标状态信息S i和所述第一子策略网络W i生成的,所述目标状态信息S i是第i次所述训练的目标状态信息;其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
  22. 根据权利要求21所述的系统,其特征在于,当所述性能参数的值低于所述预设值时,所述第一网络设备用于:
    根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息 S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于价值网络Q i进行处理得到的,所述价值网络Q i是基于上一次所述训练的价值网络得到的。
  23. 根据权利要求22所述的系统,其特征在于,所述第一子策略网络W i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理得到,其中,所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。
  24. 根据权利要求21所述的系统,其特征在于,当所述性能参数的值低于所述预设值时,所述第一网络设备用于:
    根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于第一子价值网络q i进行处理得到的,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
  25. 根据权利要求24所述的系统,其特征在于,所述第一子策略网络W i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理得到,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。
  26. 根据权利要求20所述的系统,其特征在于,所述调度控制系统还包括集中式网元设备,在基于所述第一区域的目标状态信息和第一目标子策略网络生成第一调度信息之前,所述第一网络设备还用于:
    接收所述集中式网元设备发送的第一目标子策略网络的参数,其中,所述K个目标子策略网络的参数均相同,其中,所述集中式网元设备为核心网设备或基站集中式单元CU设备。
  27. 一种调度算法训练系统,其特征在于,所述调度算法训练系统包括K个网络设备,K为大于1的整数,第一网络设备为所述K个网络设备中的任意一个,所述第一网络设备用于:
    获取训练数据;
    根据所述训练数据对第一初始子策略网络进行迭代训练,以得到第一目标子策略网络;其中,所述第一初始子策略网络为K个初始子策略网络中、所述第一网络设备对应的初始子策略网络;所述第一目标子策略网络为K个目标子策略网络中、所述第一网络设备对应的目标子策略网络;所述K个初始子策略网络、所述K个目标子策略网络分别与所述K个网络设备一一对应。
  28. 根据权利要求27所述的系统,其特征在于,所述训练数据包括第一区域的目标状态信息S i+1,其中,所述第一区域为所述第一网络设备所覆盖的区域,所述第一网络设备具体用于:
    根据所述第一区域的目标状态信息S i+1,得到性能参数,当所述性能参数的值不低于预设值时,将第一子策略网络W i确定为所述第一目标子策略网络,其中,i为正整数,所述第一区域的目标状态信息S i+1为所述第一区域内的终端根据第二调度信息进行数据传输得到的;所述第二调度信息为基于所述第一区域的目标状态信息S i和所述第一子策略网络W i生成,所述目标状态信息S i是第i次所述训练的目标状态信息;其中,当i=1时,所述第一子策略网络W i为第一初始子策略网络。
  29. 根据权利要求28所述的系统,其特征在于,当所述性能参数的值低于所述预设值时,所述第一网络设备用于:
    根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于价值网络Q i进行处理得到的,所述价值网络Q i是基于上一次训练的价值网络得到的。
  30. 根据权利要求29所述的系统,其特征在于,所述第一子策略网络W i的评价价值基于所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备分别对应的各子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理得到,其中,所述K个区域对应的反馈收益为所述K个区域内的终端根据所述K个区域分别对应的第二调度信息进行数据传输后确定的。
  31. 根据权利要求28所述的系统,其特征在于,当所述性能参数的值低于所述预设值时,所述第一网络设备用于:
    根据所述目标状态信息S i、所述第一子策略网络W i的输出结果、所述目标状态信息S i+1和所述第一子策略网络W i的评价价值,调整所述第一子策略网络W i中的参数,以得到用于下一次所述训练的第一子策略网络;其中,所述第一子策略网络W i的评价价值是基于第一子价值网络q i进行处理得到的,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络 设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
  32. 根据权利要求31所述的系统,其特征在于,所述第一子策略网络W i的评价价值基于所述第一网络设备所覆盖的第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理得到,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的。
  33. 根据权利要求28所述的系统,其特征在于,所述第一网络设备还用于:
    将第一子价值网络q i确定为第一目标子价值网络,其中,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
  34. 根据权利要求33所述的系统,其特征在于,当所述性能参数的值低于所述预设值时,所述第一网络设备还用于:
    将所述第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值,其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的;所述第一网络设备调整所述第一子价值网络q i中的参数,以得到用于下一次所述训练的第一子价值网络。
  35. 根据权利要求28所述的系统,其特征在于,所述调度算法训练系统还包括集中式网元设备,当所述性能参数的值不低于所述预设值时,所述集中式网元设备用于:
    将价值网络Q i确定为目标价值网络,其中,所述价值网络Q i是基于上一次所述训练的价值网络得到的。
  36. 根据权利要求35所述的系统,其特征在于,当所述性能参数的值低于所述预设值时,所述集中式网元设备用于:
    将所述K个网络设备所覆盖的K个区域的各目标状态信息、所述K个网络设备对应的K个子策略网络的输出结果和所述K个区域对应的反馈收益均输入至所述价值网络Q i进行处理以得到K个评价价值,其中,所述K个评价价值与所述K个子策略网络一一对应;
    将所述K个评价价值分别发送至所述K个网络设备;
    调整所述价值网络Q i中的参数,以得到用于下一次所述训练的价值网络。
  37. 根据权利要求28所述的系统,其特征在于,所述调度算法训练系统还包括集中式网元设备,当所述性能参数的值不低于所述预设值时,所述集中式网元设备用于:
    将第一子价值网络q i确定为第一目标子价值网络,其中,所述第一子价值网络q i是基于上一次所述训练的第一子价值网络得到的,所述第一子价值网络q i为K个子价值网络中、所述第一网络设备对应的子价值网络,所述K个子价值网络与所述K个网络设备一一对应。
  38. 根据权利要求37所述的系统,其特征在于,当所述性能参数的值低于所述预设值时,所述集中式网元设备用于:
    将所述第一区域的目标状态信息S i以及目标状态信息S i+1、所述第一网络设备对应的第一子策略网络W i的输出结果、所述第一区域对应的反馈收益和除第一子价值网络q i之外的其他K-1个子价值网络的信息均输入至所述第一子价值网络q i进行处理,以得到所述第一子策略网络W i的评价价值;其中,所述第一区域对应的反馈收益为所述第一区域内的终端根据所述第一区域对应的第二调度信息进行数据传输后确定的;
    调整所述第一子价值网络q i中的参数,以得到用于下一次所述训练的第一子价值网络。
  39. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至7任意一项所述的方法和/或8至19任意一项所述的方法。
PCT/CN2021/073764 2020-02-19 2021-01-26 调度方法、调度算法的训练方法及相关系统、存储介质 Ceased WO2021164507A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP21757207.2A EP4080974B1 (en) 2020-02-19 2021-01-26 Scheduling method, scheduling algorithm training method and related system, and storage medium
US17/889,499 US12262400B2 (en) 2020-02-19 2022-08-17 Scheduling method, scheduling algorithm training method, related system, and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010106750.2 2020-02-19
CN202010106750.2A CN113286374B (zh) 2020-02-19 2020-02-19 调度方法、调度算法的训练方法及相关系统、存储介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/889,499 Continuation US12262400B2 (en) 2020-02-19 2022-08-17 Scheduling method, scheduling algorithm training method, related system, and storage medium

Publications (1)

Publication Number Publication Date
WO2021164507A1 true WO2021164507A1 (zh) 2021-08-26

Family

ID=77275336

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/073764 Ceased WO2021164507A1 (zh) 2020-02-19 2021-01-26 调度方法、调度算法的训练方法及相关系统、存储介质

Country Status (4)

Country Link
US (1) US12262400B2 (zh)
EP (1) EP4080974B1 (zh)
CN (1) CN113286374B (zh)
WO (1) WO2021164507A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114006827A (zh) * 2021-09-27 2022-02-01 清华大学 时间触发调度模型的训练、时间触发调度方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12127059B2 (en) * 2020-11-25 2024-10-22 Northeastern University Intelligence and learning in O-RAN for 5G and 6G cellular networks
CN115379583B (zh) * 2022-08-29 2024-10-22 北京七山创智科技有限公司 一种分布式调度方法、系统、计算机设备和存储介质
CN117062155A (zh) * 2023-07-25 2023-11-14 南京工业大学 Mcs系统中基于tdds算法的复杂任务在线分配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
CN110012547A (zh) * 2019-04-12 2019-07-12 电子科技大学 一种共生网络中用户关联的方法
CN110278149A (zh) * 2019-06-20 2019-09-24 南京大学 基于深度强化学习的多路径传输控制协议数据包调度方法
CN110662238A (zh) * 2019-10-24 2020-01-07 南京大学 一种针对边缘网络下突发请求的强化学习调度方法及设备
CN110708259A (zh) * 2019-09-25 2020-01-17 江苏省未来网络创新研究院 自动调整队列阈值的信息无感知Coflow调度系统及其调度方法

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3538024A (en) * 1969-06-30 1970-11-03 Dow Chemical Co Acrylic-modified polyalkylenimine or polyalkylenepolyamine
US4085624A (en) * 1976-03-24 1978-04-25 Kitazawa Shoji Kabushiki Kaisha Electrically driven actuator
ATE515864T1 (de) * 2005-12-23 2011-07-15 Ericsson Telefon Ab L M Verfahren und vorrichtung zum auflösen von datenpaket-verkehrsstau
US7972024B2 (en) * 2007-11-09 2011-07-05 Deleeuw Bronson Illuminating device
WO2011096856A1 (en) * 2010-02-02 2011-08-11 Telefonaktiebolaget L M Ericsson (Publ) Flow control ca allocation correction factor based on scheduling policy, mobility, load or radio channel type
WO2012130076A1 (zh) * 2011-03-25 2012-10-04 北京新岸线无线技术有限公司 一种调度方法、网络设备和终端设备
CN102346460B (zh) * 2011-05-27 2013-11-13 运软网络科技(上海)有限公司 一种基于事务的服务控制系统及其控制方法
US11195057B2 (en) * 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
CN103179656B (zh) * 2011-12-20 2017-11-17 中兴通讯股份有限公司 一种异构网络中业务流的同步传输方法及系统
US9973966B2 (en) * 2013-01-11 2018-05-15 Interdigital Patent Holdings, Inc. User-plane congestion management
US9548927B2 (en) * 2014-06-17 2017-01-17 Comcast Cable Communications, Llc Flow-based load balancing
CN107229518B (zh) * 2016-03-26 2020-06-30 阿里巴巴集团控股有限公司 一种分布式集群训练方法和装置
CN110100491B (zh) * 2017-01-04 2023-03-14 Oppo广东移动通信有限公司 信息传输的方法、终端设备和网络设备
EP3583797B1 (en) * 2017-02-16 2021-10-20 Alcatel-Lucent Ireland Ltd Methods and systems for network self-optimization using deep learning
DE112018003399T5 (de) * 2017-07-01 2020-03-12 Intel Corporation Verfahren und vorrichtungen für fahrzeugfunkkommunikationen
CN110770761B (zh) * 2017-07-06 2022-07-22 华为技术有限公司 深度学习系统和方法以及使用深度学习的无线网络优化
EP4657194A3 (en) * 2017-08-02 2026-03-04 Strong Force Iot Portfolio 2016, LLC Methods and systems for detection in an industrial internet of things data collection environment with large data sets
WO2019051802A1 (zh) * 2017-09-15 2019-03-21 Oppo广东移动通信有限公司 传输数据的方法、网络设备和终端设备
WO2019071459A1 (zh) * 2017-10-11 2019-04-18 Oppo广东移动通信有限公司 功率指示方法、网络设备、终端设备及计算机存储介质
US11368924B2 (en) * 2017-10-14 2022-06-21 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Data transmission method, terminal device, and network device
US11017107B2 (en) * 2018-03-06 2021-05-25 Amazon Technologies, Inc. Pre-deployment security analyzer service for virtual computing resources
CN110381598B (zh) * 2018-04-12 2021-11-23 维沃移动通信有限公司 资源调度方法、信息传输方法、网络设备及终端
US11244242B2 (en) * 2018-09-07 2022-02-08 Intel Corporation Technologies for distributing gradient descent computation in a heterogeneous multi-access edge computing (MEC) networks
US10940863B2 (en) * 2018-11-01 2021-03-09 GM Global Technology Operations LLC Spatial and temporal attention-based deep reinforcement learning of hierarchical lane-change policies for controlling an autonomous vehicle
CN113261016B (zh) * 2018-11-05 2024-08-23 诺基亚通信公司 使用基于强化学习的深度q网络(dqn)的单发多用户多输入多输出(mu-mimo)资源配对
CN109471712B (zh) * 2018-11-21 2023-03-10 腾讯科技(深圳)有限公司 虚拟环境中的虚拟对象的调度方法、装置及设备
CN109688597B (zh) 2018-12-18 2020-09-01 北京邮电大学 一种基于人工智能的雾无线接入网络组网方法及装置
WO2020248223A1 (en) * 2019-06-14 2020-12-17 Beijing Didi Infinity Technology And Development Co., Ltd. Reinforcement learning method for driver incentives: generative adversarial network for driver-system interactions
US11212155B2 (en) * 2019-06-19 2021-12-28 Altiostar Networks, Inc. System and method for enhancing reception in wireless communication systems
WO2021026701A1 (zh) * 2019-08-09 2021-02-18 Oppo广东移动通信有限公司 一种数据传输方法、网络设备、用户设备
CN110580196B (zh) 2019-09-12 2021-04-06 北京邮电大学 一种实现并行任务调度的多任务强化学习方法
US11916929B1 (en) * 2019-10-18 2024-02-27 Splunk Inc. Automatic assignment of incidents in an information technology (IT) and security operations application
CN111628855B (zh) * 2020-05-09 2021-06-15 中国科学院沈阳自动化研究所 基于深度强化学习的工业5g动态多优先级多接入方法
US11356329B2 (en) * 2020-06-10 2022-06-07 At&T Intellectual Property I, L.P. Network intent synthesis
KR20220049421A (ko) * 2020-10-14 2022-04-21 삼성에스디에스 주식회사 데이터 증강 기법 스케줄링 장치 및 방법
US12127059B2 (en) * 2020-11-25 2024-10-22 Northeastern University Intelligence and learning in O-RAN for 5G and 6G cellular networks
US11386367B1 (en) * 2021-05-27 2022-07-12 Recentive Analytics, Inc. Systems and methods for determining event schedules
CN113254178B (zh) * 2021-06-01 2021-10-29 苏州浪潮智能科技有限公司 一种任务调度方法、装置、电子设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108966352A (zh) * 2018-07-06 2018-12-07 北京邮电大学 基于深度增强学习的动态波束调度方法
CN110012547A (zh) * 2019-04-12 2019-07-12 电子科技大学 一种共生网络中用户关联的方法
CN110278149A (zh) * 2019-06-20 2019-09-24 南京大学 基于深度强化学习的多路径传输控制协议数据包调度方法
CN110708259A (zh) * 2019-09-25 2020-01-17 江苏省未来网络创新研究院 自动调整队列阈值的信息无感知Coflow调度系统及其调度方法
CN110662238A (zh) * 2019-10-24 2020-01-07 南京大学 一种针对边缘网络下突发请求的强化学习调度方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4080974A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114006827A (zh) * 2021-09-27 2022-02-01 清华大学 时间触发调度模型的训练、时间触发调度方法及装置

Also Published As

Publication number Publication date
EP4080974A1 (en) 2022-10-26
CN113286374A (zh) 2021-08-20
US12262400B2 (en) 2025-03-25
CN113286374B (zh) 2023-05-09
US20220394727A1 (en) 2022-12-08
EP4080974B1 (en) 2025-10-22
EP4080974A4 (en) 2023-06-28

Similar Documents

Publication Publication Date Title
EP4181556A1 (en) Artificial intelligence-based communication method and communication device
Tao et al. Content-centric sparse multicast beamforming for cache-enabled cloud RAN
US12156240B2 (en) Scheduling method and apparatus in communication system, and storage medium
US12096246B2 (en) Optimizing a cellular network using machine learning
WO2021164507A1 (zh) 调度方法、调度算法的训练方法及相关系统、存储介质
US20230262683A1 (en) Method and system for deep reinforcement learning (drl) based scheduling in a wireless system
WO2023039905A1 (zh) Ai数据的传输方法、装置、设备及存储介质
Alsuhli et al. Deep reinforcement learning-based CIO and energy control for LTE mobility load balancing
US20230319662A1 (en) Method and apparatus for programmable and customized intelligence for traffic steering in 5g networks using open ran architectures
CN118075823A (zh) 服务质量参数调整方法、装置及存储介质
Xu et al. Resource pooling for frameless network architecture with adaptive resource allocation
US11284405B2 (en) Method of reducing uplink inter-cell interference in a cellular communications network
Wojnar et al. Coordinated spatial reuse scheduling with machine learning in IEEE 802.11 MAPC networks
US11140563B2 (en) Dynamic quantized signature vector selection for a cloud radio access network
US20230114492A1 (en) Electronic device and method for providing scheduling information based on learning in wireless communication system
CN116887327A (zh) 一种QoS预测方法及装置
CN116801367A (zh) 一种交叉链路干扰抑制方法、网络节点及存储介质
EP4258730B1 (en) Method for programmable and customized intelligence for traffic steering in 5g networks using open ran architectures
CN110754128B (zh) 减少蜂窝通信网络中上行链路小区间干扰的方法
Combes et al. On the use of packet scheduling in self-optimization processes: application to coverage-capacity optimization
Malmirchegini et al. Distributed and adaptive optimization of LTE-TDD configuration based on UE traffic type
US12505362B2 (en) Model selection for split inference
WO2016045312A1 (zh) 干扰调节处理方法及装置
CN106411450B (zh) 一种下行公共数据信道的配置及其数据传输方法
US20240421950A1 (en) Non-coherent combining for full gradients transmission in federated learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21757207

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021757207

Country of ref document: EP

Effective date: 20220721

NENP Non-entry into the national phase

Ref country code: DE

WWG Wipo information: grant in national office

Ref document number: 2021757207

Country of ref document: EP