Index
Project
MSRA RTC

MSRA RTC

这是我在 MSRA 实习的时候跟进的项目,主题是通过强化学习增强拥塞控制算法。 中途发了一篇 NIPS Workshop ,不过比较正式的 paper 在我离开之后才发表。

Reinforcement Learning on Bandwidth Estimation for Real-time Communication: This is a project done at Microsoft Rearch Asia. Our objective is to predict the future network bandwidth to decide the video frame rate and other transmission parameters. We tried A2C, A3C, DDPG and PPO algorithms with a recurrent neural network, and got better results than tranditional algorithms.

下面是工作期间的日志,从原本的 TiddlyWiki 中导出的,有部分格式没有处理好。

  • Week 1: 拥塞控制入门,WebRTC Setup & Running
  • Week 2: 构建 Chromium(WebRTC), NS3 网络模拟入门
  • Week 3: 改为使用 aiortc 做协议, mahimahi 链路模拟,传输 four people 视频做测试
  • Week 4: aiortc 效果有问题,用回 Chromium 里的,强化学习框架, MSRTC 代码分析
  • Week 5: MSRTC 性能分析,研究用 py 控制底层实现做增强学习的方式
  • Week 6: 环境控制 socat + tc ,设置 Chromium rtc 通讯
  • Week 7: 深入学习 tc 。
  • Week 8: 完成模拟器收发包的信息收集。
  • Week 9: 设计增强学习框架, actor 的输入输出
  • Week 10: Hack Chromium ,输出并分析网络链路相关日志
  • Week 11: 分割并预处理相关日志,作为训练时的链路环境
  • Week 12: 训练简单的 RNN 模型
  • Week 13: 训练 LSTM 模型
  • Week 14: 用 Python 封装 Cpp 模拟器,支持后续强化学习训练。
  • Week 15: 训练 A3C 模型
  • Week 16: 以 DeepRL 仓库为基础,训练 A3C/PPO/DDPG/LSTM(GRU) 模型、调参
  • Week 17: 做 slides 汇报,重构 DeepRL 仓库,修复逻辑,加 tensorboard,改模型
  • Week 18: 继续调优 PPO & DDPG 模型
  • Week 19: 研究激励函数和模型输出的关系,重新设计激励函数。修 bug
  • Week 20: 新增 RTT 作为输入,效果超过 rule-based 系统
  • Week 21: RTT 的建模和其它理论研究,读 paper
  • Week 22: 模型性能优化、效果调优
  • Week 23: 修 bug、清理数据集脏数据、训练,代码仓库整理
  • Week 24: 模型调优,一些输入/网络结构/激励函数/损失函数/超参数上的探索
Created by sine at 2022-06-05 17:39:16. Last modification: 2022-06-19 18:29:46