Qlib

{ }

本文档翻译于 2025-12-05

我的

指南

QlibRL 可帮助用户快速上手并便捷地基于强化学习（RL）算法实现量化策略。针对不同用户群体，我们推荐以下使用 QlibRL 的指导路径。

强化学习算法初学者

无论您是希望了解 RL 在交易中能做什么的量化研究员，还是希望在交易场景中入门 RL 算法的学习者，若您对 RL 知识有限，并希望屏蔽各种详细设置以快速上手 RL 算法，我们推荐以下学习顺序来掌握 QlibRL：

在第一部分学习 RL 的基础知识。
在第二部分了解 RL 方法可应用的交易场景。
在第三部分运行示例，使用 RL 解决交易问题。
如果您希望进一步探索 QlibRL 并进行自定义，您需要先在第四部分了解 QlibRL 的框架，并根据您的需求重写特定组件。

强化学习算法研究者

如果您已熟悉现有的 RL 算法，致力于研究 RL 算法，但缺乏金融领域的领域知识，并希望在金融交易场景中验证您的算法有效性，我们推荐以下步骤来使用 QlibRL：

在第二部分了解 RL 方法可应用的交易场景。
选择一个 RL 应用场景（目前，QlibRL 已实现两个场景示例：订单执行和算法交易）。在第三部分运行示例以使其正常工作。
修改策略部分，融入您自己的 RL 算法。

量化研究员

如果您具备一定的金融领域知识和编程能力，并希望探索 RL 算法在投资领域的应用，我们推荐以下步骤来探索 QlibRL：

在第一部分学习 RL 的基础知识。
在第二部分了解 RL 方法可应用的交易场景。
在第三部分运行示例，使用 RL 解决交易问题。
在第四部分了解 QlibRL 的框架。
根据您要解决的问题特征选择合适的 RL 算法（目前，QlibRL 基于 tianshou 支持 PPO 和 DQN 算法）。
根据市场交易规则和您要解决的问题设计 MDP（马尔可夫决策过程）流程。参考订单执行示例，并对以下模块进行相应修改：状态、指标、动作解释器、状态解释器、奖励、观测值、模拟器。