5. 特征提取与表示

本文详细介绍了量化投资中特征提取的核心方法，包括基础技术指标构建、Alpha 因子设计、因子表达式语法以及特征选择与重要性评估的完整流程，并提供了基于 Qlib 框架的实践案例。

基础特征与技术指标

在量化投资中，技术指标是构建交易策略的基础组件。这些指标基于历史价格、成交量等市场数据计算得出，反映了市场的某种状态或趋势。Qlib 框架提供了灵活的数据处理接口，可以方便地实现各种技术指标。

移动平均线（MA）

移动平均线是最基本的技术指标之一，它通过计算价格在一定时期内的平均值来平滑短期波动，反映中长期趋势。常用的有简单移动平均（SMA）和指数移动平均（EMA）。

from qlib.data import D
from qlib.data.filter import NameDFilter

# 定义简单移动平均计算函数
def calculate_sma(close_price, window=20):
    return close_price.rolling(window=window).mean()

# 获取沪深300成分股数据
instruments = D.instruments(market='csi300')
# 获取收盘价数据
close = D.features(instruments, ['$close'], start_time='2020-01-01', end_time='2023-01-01')
# 计算20日简单移动平均
sma20 = calculate_sma(close, window=20)
print(sma20.head())

这段代码首先通过 Qlib 的 D.instruments 接口获取沪深 300 成分股列表，然后使用 D.features 获取这些股票的收盘价数据。calculate_sma 函数利用 pandas 的滚动窗口功能计算简单移动平均。实际应用中，我们通常会将这类特征计算整合到数据处理器中，以便在策略回测时自动应用。

相对强弱指数（RSI）

相对强弱指数是衡量资产超买超卖状态的动量指标，取值范围在 0 到 100 之间。传统上，RSI 值超过 70 被认为是超买，低于 30 被认为是超卖。

def calculate_rsi(close_price, window=14):
    # 计算价格变动
    delta = close_price.diff()
    # 分离上涨和下跌变动
    gain = delta.where(delta > 0, 0)
    loss = -delta.where(delta < 0, 0)
    # 计算平均增益和平均损失
    avg_gain = gain.rolling(window=window).mean()
    avg_loss = loss.rolling(window=window).mean()
    # 计算RSI
    rs = avg_gain / avg_loss
    rsi = 100 - (100 / (1 + rs))
    return rsi

# 计算14日RSI
rsi14 = calculate_rsi(close, window=14)
print(rsi14.head())

RSI 的计算相对复杂一些，需要先计算价格变动，然后分离上涨和下跌的情况。通过平均增益与平均损失的比率来衡量价格变动的强度。在实际量化策略中，RSI 常被用作趋势反转的信号。

技术指标的组合应用

单一指标往往难以全面反映市场状态，实际应用中通常会组合多个指标。Qlib 的数据处理器可以方便地将多个指标组合起来，形成更全面的特征集。

from qlib.data.handler import DataHandlerLP
from qlib.contrib.data.handler import Alpha158

# 使用Alpha158数据处理器，包含多种技术指标
handler_config = {
    "start_time": "2018-01-01",
    "end_time": "2023-01-01",
    "fit_start_time": "2018-01-01",
    "fit_end_time": "2020-12-31",
    "instruments": "csi300",
}

handler = Alpha158(**handler_config)
# 获取处理后的特征数据
features = handler.fetch()
print(f"特征数量: {features.shape[1]}")
print(f"前5个特征名称: {features.columns[:5].tolist()}")

Alpha158 是 Qlib 提供的一个预设数据处理器，包含了 158 个常用的技术指标和特征。通过这种方式，我们可以快速构建一个包含多种技术指标的特征集，为后续的因子构建和模型训练打下基础。

Alpha 因子构建方法

Alpha 因子是量化策略的核心，它代表了能够产生超额收益的市场信号。构建有效的 Alpha 因子需要结合金融理论、市场洞察和数据处理技巧。

Alpha 因子的设计原则

一个好的 Alpha 因子应该具备以下特点：

具有明确的经济或市场逻辑
在不同市场环境下具有一定的稳健性
能够提供与现有因子不相关的超额收益
具有可解释性和可验证性

Qlib 框架中，Alpha 因子通常通过表达式来定义，这些表达式可以直接作用于原始市场数据，生成所需的特征。

MACD 因子实现

MACD（移动平均收敛散度）是一种趋势跟踪动量指标，通过比较不同周期的指数移动平均线来判断趋势强度和潜在反转点。

from qlib.data.ops import EMA, Sub, Div
from qlib.data.filter import ExpressionDFilter

# 定义MACD因子
def macd_factor(data):
    # 计算12日EMA
    ema12 = EMA(data, fields='$close', window=12)
    # 计算26日EMA
    ema26 = EMA(data, fields='$close', window=26)
    # 计算DIF（离差值）
    dif = Sub(ema12, ema26)
    # 计算DEA（信号线）
    dea = EMA(dif, fields='EMA12-EMA26', window=9)
    # 计算MACD柱状线
    macd = Sub(dif, dea) * 2
    return macd

# 使用表达式过滤器定义MACD因子
macd_expr = ExpressionDFilter(expr='MACD = 2*(EMA($close,12)-EMA($close,26)-EMA(EMA($close,12)-EMA($close,26),9))')

这个例子展示了两种实现 MACD 因子的方法：一种是通过 Python 函数直接计算，另一种是使用 Qlib 的表达式过滤器。后者更适合整合到数据处理流程中，可以直接在数据加载时应用。

自定义 Alpha 因子示例

除了经典指标外，我们还可以根据市场洞察设计自定义 Alpha 因子。以下是一个结合价格波动和成交量的复合因子：

def custom_alpha_factor(data):
    # 价格波动因子：收盘价与开盘价的比率
    price_factor = data['$close'] / data['$open'] - 1
    # 成交量波动因子：今日成交量与5日平均成交量的比率
    volume_factor = data['$volume'] / data['$volume'].rolling(window=5).mean() - 1
    # 复合因子：价格波动与成交量波动的乘积
    alpha_factor = price_factor * volume_factor
    return alpha_factor.rename('custom_alpha')

这个自定义因子结合了价格变动和成交量变动，试图捕捉量价配合的市场信号。在实际应用中，这样的因子通常需要经过严格的回测和验证，以确保其有效性和稳健性。

因子表达式语法

Qlib 提供了强大的因子表达式语法，允许用户通过简洁的表达式定义复杂的特征。这种语法支持多种运算符和函数，可以直接作用于原始数据字段。

基本语法规则

Qlib 的因子表达式基于类 SQL 语法，支持常见的数学运算、聚合函数和窗口函数。以下是一些基本语法规则：

使用 $符号引用原始数据字段，如$ close 表示收盘价
支持常见的数学运算符：+、-、*、/、%、^ 等
支持函数调用，如 EMA($close, 12)表示 12 日指数移动平均
支持逻辑运算和条件表达式

常用表达式示例

# 基本统计特征
$close - $open  # 当日涨跌幅
($high - $low)/$open  # 当日振幅

# 移动平均相关特征
SMA($close, 20)  # 20日简单移动平均
EMA($close, 12)  # 12日指数移动平均
$close / SMA($close, 20) - 1  # 收盘价与20日均价比率

# 动量特征
ROCR($close, 10)  # 10日价格变化率
RSI($close, 14)  # 14日相对强弱指数

# 成交量特征
$volume / SMA($volume, 20)  # 成交量与20日均量比率

# 波动率特征
STD($close, 20)  # 20日收盘价标准差
ATR($high, $low, $close, 14)  # 14日平均真实波幅

这些表达式可以直接在 Qlib 的数据过滤器中使用，也可以在数据处理器中组合成更复杂的特征集。

复杂因子表达式

对于更复杂的因子，我们可以组合多个表达式，使用括号控制运算顺序：

# 复合趋势因子
(EMA($close, 5) - EMA($close, 10)) / EMA($close, 10) * 100 +
(RSI($close, 14) - 50) / 2 +
($close - MIN($low, 20)) / (MAX($high, 20) - MIN($low, 20)) * 100

这个复合因子结合了趋势、动量和超买超卖三个维度的信息，试图全面捕捉市场状态。在实际应用中，这样的复杂因子往往需要通过大量实验和优化才能达到理想效果。

特征选择与重要性评估

在构建量化策略时，我们通常会生成大量特征，但并非所有特征都对预测有贡献。特征选择可以帮助我们：

减少冗余信息，提高模型效率
降低过拟合风险
增强模型的可解释性
减少计算资源消耗

基于模型的特征重要性

许多机器学习模型可以直接输出特征重要性分数，反映每个特征对模型预测的贡献程度。在 Qlib 中，我们可以很方便地获取这些信息：

import qlib
from qlib.constant import REG_CN
from qlib.utils import init_instance_by_config
from qlib.tests.data import GetData
from qlib.tests.config import CSI300_GBDT_TASK

# 初始化Qlib
provider_uri = "~/.qlib/qlib_data/cn_data"
GetData().qlib_data(target_dir=provider_uri, region=REG_CN, exists_skip=True)
qlib.init(provider_uri=provider_uri, region=REG_CN)

# 初始化模型和数据集
model = init_instance_by_config(CSI300_GBDT_TASK["model"])
dataset = init_instance_by_config(CSI300_GBDT_TASK["dataset"])

# 训练模型
model.fit(dataset)

# 获取特征重要性
feature_importance = model.get_feature_importance()
print("特征重要性前10名:")
print(feature_importance.head(10))

这段代码使用 Qlib 提供的 GBDT 模型训练一个预测模型，然后通过 get_feature_importance 方法获取特征重要性分数。这些分数可以帮助我们识别对预测最有贡献的特征。

特征选择方法

基于特征重要性，我们可以采用多种策略进行特征选择：

阈值法：选择重要性分数高于某个阈值的特征
Top-K 法：选择重要性最高的 K 个特征
百分比法：选择累积重要性达到某个百分比的特征

# 基于重要性选择Top 20特征
top_features = feature_importance.head(20).index.tolist()

# 更新数据处理器配置，只保留Top特征
new_handler_config = handler_config.copy()
new_handler_config["feature_list"] = top_features
new_handler = Alpha158(**new_handler_config)

通过这种方式，我们可以显著减少特征数量，同时保留大部分预测信息。在实际应用中，特征选择通常需要结合交叉验证，以确保选择的特征在不同数据集上具有稳健性。

特征相关性分析

除了重要性，特征之间的相关性也是需要考虑的重要因素。高度相关的特征会导致信息冗余，增加模型复杂度而不提高预测性能。

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 获取特征数据
features = handler.fetch()
# 计算特征相关性
corr_matrix = features.corr()

# 绘制相关性热图
plt.figure(figsize=(12, 10))
sns.heatmap(corr_matrix.iloc[:10, :10], annot=True, cmap='coolwarm', fmt='.2f')
plt.title('特征相关性矩阵')
plt.show()

这段代码计算特征之间的相关系数，并绘制热图进行可视化。对于高度相关的特征（相关系数接近 1 或-1），我们可以考虑移除其中一个，或者通过主成分分析（PCA）等方法进行降维。

特征工程流水线

将上述各个环节整合起来，就形成了一个完整的特征工程流水线。在 Qlib 中，这个流水线通常通过数据处理器（DataHandler）来实现。

Qlib 特征工程流程

flowchart TD
    A[原始数据] --> B[数据清洗]
    B --> C[基础特征计算]
    C --> D[Alpha因子构建]
    D --> E[特征选择]
    E --> F[特征标准化]
    F --> G[特征缓存]
    G --> H[模型训练]

这个流程图展示了 Qlib 中典型的特征工程流程：从原始数据开始，经过清洗、基础特征计算、Alpha 因子构建、特征选择、标准化等步骤，最终生成可供模型训练使用的特征数据。

完整特征工程实现示例

from qlib.data.dataset import DatasetH
from qlib.data.handler import DataHandlerLP
from qlib.contrib.data.handler import Alpha158
from qlib.data.transform import ZScoreNorm

# 定义数据处理器配置
handler_config = {
    "start_time": "2018-01-01",
    "end_time": "2023-01-01",
    "fit_start_time": "2018-01-01",
    "fit_end_time": "2020-12-31",
    "instruments": "csi300",
    # 添加特征处理器
    "processors": [
        {
            "class": "DropnaProcessor",  # 处理缺失值
        },
        {
            "class": "ZScoreNorm",  # 标准化处理
            "kwargs": {
                "fields_group": "feature",
                "clip_outlier": True,
            },
        },
    ],
}

# 创建数据处理器
handler = Alpha158(**handler_config)

# 创建数据集
dataset = DatasetH(handler=handler,
                  segments={
                      "train": ("2018-01-01", "2020-12-31"),
                      "valid": ("2021-01-01", "2021-12-31"),
                      "test": ("2022-01-01", "2023-01-01"),
                  })

# 获取处理后的特征数据
train_data, valid_data, test_data = dataset.prepare(
    ["train", "valid", "test"],
    col_set=["feature", "label"],
    data_key=DataHandlerLP.DK_L,
)

print(f"训练集特征形状: {train_data['feature'].shape}")
print(f"验证集特征形状: {valid_data['feature'].shape}")
print(f"测试集特征形状: {test_data['feature'].shape}")

这个示例展示了一个完整的 Qlib 特征工程流水线，包括数据处理器配置、数据集创建和数据准备。通过这种方式，我们可以将特征计算、清洗、标准化等步骤整合在一起，形成一个可复用的数据处理流程。

特征缓存与性能优化

特征工程通常是量化策略开发中计算开销最大的环节之一。Qlib 提供了多种缓存机制来优化性能：

# 配置特征缓存
handler_config["cache"] = {
    "class": "DatasetCache",
    "kwargs": {
        "cache_path": "./feature_cache",
        "cache_key": "alpha158_features",
    },
}

# 使用缓存的处理器
cached_handler = Alpha158(**handler_config)

通过启用缓存，Qlib 会将计算好的特征数据存储在本地磁盘，下次使用时可以直接加载，避免重复计算。这对于需要反复调整模型参数但特征工程流程不变的场景尤为有用，可以显著缩短实验周期。

实战案例：构建多因子模型

综合本章所学内容，我们来构建一个完整的多因子模型，展示特征提取在实际量化策略开发中的应用。

因子组合与权重优化

from qlib.contrib.model.gbdt import LGBModel
from qlib.workflow import R
from qlib.workflow.record_temp import SignalRecord, PortAnaRecord

# 定义模型配置
model_config = {
    "class": "LGBModel",
    "module_path": "qlib.contrib.model.gbdt",
    "kwargs": {
        "loss": "mse",
        "colsample_bytree": 0.8,
        "learning_rate": 0.05,
        "subsample": 0.8,
        "lambda_l1": 10,
        "lambda_l2": 10,
        "max_depth": 5,
        "num_leaves": 31,
        "num_threads": 10,
    },
}

# 初始化模型
model = init_instance_by_config(model_config)

# 开始实验
with R.start(experiment_name="multi_factor_model"):
    # 训练模型
    model.fit(dataset)

    # 生成预测信号
    recorder = R.get_recorder()
    sr = SignalRecord(model, dataset, recorder)
    sr.generate()

    # 回测分析
    par = PortAnaRecord(recorder, dataset, benchmark="SH000300")
    par.generate()

这个案例展示了如何使用 Qlib 构建一个完整的多因子模型。我们使用 LGBModel 作为预测模型，基于之前定义的特征工程流水线生成的特征数据进行训练，然后生成交易信号并进行回测分析。

模型评估与因子贡献分析

模型训练完成后，我们需要评估其性能并分析各个因子的贡献：

# 获取回测结果
backtest_result = recorder.load_object(PortAnaRecord.__name__)

# 打印关键指标
print("回测关键指标:")
print(f"年化收益率: {backtest_result['annualized_return']:.4f}")
print(f"信息比率: {backtest_result['information_ratio']:.4f}")
print(f"最大回撤: {backtest_result['max_drawdown']:.4f}")

# 获取特征重要性
feature_importance = model.get_feature_importance()

# 绘制特征重要性条形图
plt.figure(figsize=(12, 6))
feature_importance.head(15).plot(kind='bar')
plt.title('特征重要性排名')
plt.tight_layout()
plt.show()

这段代码首先加载回测结果，打印关键绩效指标，然后获取并可视化特征重要性。通过这种分析，我们可以了解模型的整体表现以及各个因子对模型预测的贡献程度，为进一步优化提供方向。

总结与展望

特征提取与表示是量化投资的核心环节，直接影响策略的表现。本章系统介绍了从基础技术指标到复杂 Alpha 因子的构建方法，以及特征选择和工程流水线的实现。随着机器学习技术的发展，特征工程正朝着自动化、智能化方向发展，如自动特征生成、深度学习特征提取等。Qlib 作为一个灵活的量化框架，为这些前沿技术的应用提供了良好的支持。

在实际应用中，特征工程是一个需要不断迭代优化的过程。投资者需要结合市场动态、策略表现和新的研究成果，持续改进特征集，以适应不断变化的市场环境。同时，也要注意避免过度拟合和数据窥探等常见陷阱，确保特征的稳健性和可解释性。

qlib 速读指南

基础入门

核心组件

高级应用