信息通信技术与政策

信息通信技术与政策

信息通信技术与政策 ›› 2020, Vol. 46 ›› Issue (9): 48-54.

上一篇    下一篇

一种基于深度强化学习的动态路由算法

A dynamic routing algorithm based on deep reinforcement learning

  

  1. 北京邮电大学人工智能学院,北京 100876
  • 出版日期:2020-09-15 发布日期:2020-11-05
  • 作者简介:
    肖扬:北京邮电大学人工智能学院智能感知与计算教研中心博士研究生,主要研究基于强化学习的自主网络 吴家威:北京邮电大学人工智能学院智能感知与计算教研中心硕士研究生,主要研究基于强化学习的网络路由算法 李鉴学:北京邮电大学人工智能学院智能感知与计算教研中心硕士研究生,主要研究基于强化学习的网络路由算法 刘军:北京邮电大学人工智能学院智能感知与计算教研中心副教授,博士生导师,北京邮电大学数据科学中心主任,北京大数据协会常务理事,主要研究基于强化学习的自主路由

  1. School of Artificial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100876, China
  • Online:2020-09-15 Published:2020-11-05

摘要:

路由是网络基础架构稳定运行的保障,是支撑下一代网络持续发展的关键功能。如今,网络流量的快速增长和服务需求的不断变化使传统路由算法面临严峻的挑战。近年来,深度强化学习在解决复杂连续控制问题上表现出良好的效果。为了解决传统路由算法的一系列弊端,将深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)与路由场景相结合,提出一种基于深度强化学习的新型动态路由算法(DDPG4Net);随后,在自行开发的网络模拟器RL4Net 上对该算法的效果进行了验证。

关键词: 深度强化学习, 路由算法, 网络流量工程

Abstract:

Routing maintains the stable operation of network infrastructure and supports the sustainable development of next-generation networks. Nowadays, the rapid growth of network traffic and the continuous changes in network services make traditional routing algorithms face severe challenges. In recent years, deep reinforcement learning has shown good results in solving complex continuous control problems. In order to solve a series of shortcomings of traditional routing algorithms, we combined the Deep Deterministic Policy Gradient (DDPG) algorithm with routing scenarios, and proposed a new dynamic routing algorithm based on deep reinforcement learning—DDPG4Net.

Key words: deep reinforcement learning, routing algorithm, network traffic engineering