您正在访问亚汇网香港分站,本站所提供的内容均遵守中华人民共和国香港特别行政区法律法规。

量化 | 这是一套更准确的利率择时模型

文 / 小亚 2025-07-17 14:40:03 来源:亚汇网

今年3月,我们团队发布了一个胜率接近80%的模型,从发布至今得到广泛关注,上半年的波段中,除了5月由于换券等因素导致模型短期失效,其余区间胜率100%。但与此同时,也收到了很多投资者的建议,例如模型灵敏性、因子多样性、胜率的提升空间等,因此我们进行进一步优化尝试,得到了一套更准确的利率择时模型。
改进后的模型有哪些优点?第一,模型的胜率更高。模型预测方向正确天数总和684天,错误天数34天,胜率95.26%,累计收益177.45bp。从2021年6月30日至2025年7月11日,仅考虑资本利得的情况下,策略净值为1.16,样本外测试集区间,策略净值为1.11。2023年3月至今形成择时区间21个,其中方向正确18个,方向错误3个,区间胜率85.71%。正确区间平均长度38天,错误区间平均长度11.33天,模型的正确率和纠错能力均有所提升。
第二,回撤控制更好。模型正确区间内的最大回撤为8.29bp,全样本区间最大回撤8.32bp,较初代模型表现有所提升。
第三,模型的左侧效果较好。我们依旧使用5日移动平均结果作为择时信号,可以提前5-10天捕捉到利率的多空转换。
第四,模型结果依旧稳健,较少出现反复。尤其5日移动平均结果极少出现与波段方向背离的现象。
第五,模型的震荡区间控制较好,绝大多数时刻可以发出明确择时信号,仅有10.6%的预测结果发出40%-60%区间的震荡信号。
模型做了哪些优化?首先我们丰富了因子集。我们从前期模型的231个宏观和微观中高频经济变量扩充至278个,同时加入技术因子、机构行为因子以及情绪因子,新增150个备选因子,共计428个因子。
其次优化了因子选取方式。我们使用SHAP来进行因子筛选,计算每个窗口因子的SHAP值,来提取平均贡献较大的因子。进一步,我们使用二分法逐步训练测试,选取效果相对较好的因子数量,最终我们选取151个因子。
最后对算法应用及模型训练进行优化。第一,底层模型使用两层循环的神经网络;第二,应用L2正则化、Dropout等规避过拟合问题;第三,在结果输出阶段,我们不再以20个交易日为重置窗口,而是每个交易日重新训练后输出结果,保证结果的灵敏性和及时性。
风险提示:模型失效风险;因子失效风险;数据质量风险
01
模型择时结果分析
首先还是明确,我们的模型输出结果是未来一段时间十年期国债到期收益率上行的概率,只有胜率,没有赔率。当模型输出概率≥60%,未来利率可能有上升趋势,即看空区间;模型输出概率≤40%,则认为未来利率有下降趋势,即看多区间。
经过优化以后,第一,模型的胜率更高。从23年3月开始的测试区间看,模型预测方向正确天数总和684天,错误天数34天,胜率95.26%,累计收益177.45bp。
从模拟净值曲线角度,我们以模型发出信号的第二天作为策略起点,以中债7-10年国开行债券净价指数作为多头持仓,中证0-1年国债指数作为空头持仓,从2021年6月30日至2025年7月11日进行回测,仅考虑资本利得的情况下,策略净值为1.16,2023年3月至2025年7月11日的样本外测试集区间,策略净值为1.11。
从区间胜率看,2023年3月至今形成择时区间21个,其中方向正确18个,方向错误3个,区间胜率85.71%。正确区间平均长度38天,错误区间平均长度11.33天,模型的正确率和纠错能力均有所提升。
而且模型结果更加灵敏,不会忽略底层细小变化。原始输出概率不会一成不变,而且相比初代模型,我们更好地把握了2023年二季度的利率下行趋势、2024年三季度的利率波动以及今年5月利率的翻空。
第二,回撤控制更好。模型正确区间内的最大回撤为8.29bp,全样本区间最大回撤8.32bp,较初代模型表现有所提升。
第三,模型的左侧效果较好。我们依旧使用5日移动平均结果作为择时信号,可以提前5-10天捕捉到利率的多空转换。
第四,模型结果依旧稳健,较少出现反复。尤其5日移动平均结果极少出现与波段方向背离的现象。
第五,模型的震荡区间控制较好,绝大多数时刻可以发出明确择时信号,仅有10.6%的预测结果发出40%-60%区间的震荡信号。
02
模型做了哪些优化?
2.1
丰富原始因子集
因子选取上,我们从前期模型的231个宏观和微观中高频经济变量扩充至278个,同时加入技术因子、机构行为因子以及情绪因子,对部分因子的差分方式进行调整以更好捕捉指标的边际变化趋势和波动信息,新增150个备选因子,共计428个因子。
缺失值处理方面,为防止未来数据泄露,我们使用向前填充方式填补缺失值;频率对齐方面,对于周频和月频数据,我们按照上一期发布数据进行填充将其升为日频;对于月频数据,我们以数据更新时间作为实际应用起点。
目标变量方面,我们以中债10年期国债到期收益率为基准,用未来K日的到期收益率减去当期值获得。
2.2
优化因子筛选方法
我们使用全因子在2023年6月至2025年5月20日的区间上进行回测,效果如下图所示。形成正确区间15个,错误区间2个,累计收益达到231.21bp,但我们将模型应用至最新的数据,模型的输出产生了“漂移”,出现了较为严重的过拟合现象。
为了尽可能减少因子数量、规避过拟合问题,我们使用SHAP来进行因子筛选。SHAP(SHapleyAdditiveexPlanations)是一种基于合作博弈论的模型解释方法,能够为任意复杂模型(包括深度学习、集成树等)分配每个特征对模型输出的“贡献值”。它的核心思想借鉴于Shapley值,满足公平性、公平分配与局部准确性。
对于第j个因子,其Shapley值定义为:
SHAP将模型输出拆分成基线值与各特征贡献之和,我们可以通过统计所有样本平均绝对SHAP值,来衡量因子的全局重要性。
我们首先剔除掉一些有效区间较短的因子,然后使用所有因子进行训练和回测,计算每个窗口因子的SHAP值,在全部窗口中进行均值计算,来提取平均贡献较大的因子,删去贡献较小的因子,实现因子择时能力和稳定性的平衡。
进一步,我们使用二分法逐步训练测试,选取效果相对较好的因子数量,最终我们选取151个因子。辅助手段为训练和测试过程中的损失曲线与F1分数,以避免过拟合与欠拟合问题。
2.3
算法应用及模型训练
第一,底层模型使用两层循环的神经网络。
第二,应用L2正则化、Dropout等规避过拟合问题。此外,超参数的调整应当以尽量减小模型复杂度为基准进行尝试。
第三,在结果输出阶段,我们不再以20个交易日为重置窗口,而是每个交易日重新训练后输出结果,保证结果的灵敏性和及时性。如果使用滑动窗口进行预测,可能存在以下两个问题:权重滞后性与数据可应用性。固定权重可能由于无标签测试集以及余数部分的存在,权重值最多会出现滞后接近40个交易日的现象,会导致模型输出结果的漂移;同时由于部分数据使用向前填充,在较长区间内保持不变,而日度数据更新频率较高,因此滑动窗口可能无法识别某些数据在更新日期的变化对利率的影响。
例如我们的呈现结果中,以2月中旬到3月底、6月底以来做逐日输出测试,发现模型结果更加灵敏,同时准确度也较高。
只是需要注意,在样本内区间训练时,我们仍以500个交易日为一个窗口,每20个交易日滑动一次窗口。

相关新闻

加载更多...

排行榜 日排行 | 周排行