指南

QlibRL 可帮助用户快速上手并便捷地基于强化学习(RL)算法实现量化策略。针对不同用户群体,我们推荐以下使用 QlibRL 的指导路径。

强化学习算法初学者

无论您是希望了解 RL 在交易中能做什么的量化研究员,还是希望在交易场景中入门 RL 算法的学习者,若您对 RL 知识有限,并希望屏蔽各种详细设置以快速上手 RL 算法,我们推荐以下学习顺序来掌握 QlibRL:
  • 第一部分学习 RL 的基础知识。

  • 第二部分了解 RL 方法可应用的交易场景。

  • 第三部分运行示例,使用 RL 解决交易问题。

  • 如果您希望进一步探索 QlibRL 并进行自定义,您需要先在第四部分了解 QlibRL 的框架,并根据您的需求重写特定组件。

强化学习算法研究者

如果您已熟悉现有的 RL 算法,致力于研究 RL 算法,但缺乏金融领域的领域知识,并希望在金融交易场景中验证您的算法有效性,我们推荐以下步骤来使用 QlibRL:
  • 第二部分了解 RL 方法可应用的交易场景。

  • 选择一个 RL 应用场景(目前,QlibRL 已实现两个场景示例:订单执行和算法交易)。在第三部分运行示例以使其正常工作。

  • 修改策略部分,融入您自己的 RL 算法。

量化研究员

如果您具备一定的金融领域知识和编程能力,并希望探索 RL 算法在投资领域的应用,我们推荐以下步骤来探索 QlibRL:
  • 第一部分学习 RL 的基础知识。

  • 第二部分了解 RL 方法可应用的交易场景。

  • 第三部分运行示例,使用 RL 解决交易问题。

  • 第四部分了解 QlibRL 的框架。

  • 根据您要解决的问题特征选择合适的 RL 算法(目前,QlibRL 基于 tianshou 支持 PPO 和 DQN 算法)。

  • 根据市场交易规则和您要解决的问题设计 MDP(马尔可夫决策过程)流程。参考订单执行示例,并对以下模块进行相应修改:状态指标动作解释器状态解释器奖励观测值模拟器