“海量”专题(192)——大单的精细化处理与大单因子重构


原标题:“海量”专题(192)——大单的精细化处理与大单因子重构 来源:海通量化团队

重要提示:《证券期货投资者适当性管理办法》于2017年7月1日起正式实施,通过本微信订阅号发布的观点和信息仅供海通证券的专业投资者参考,完整的投资观点应以海通证券研究所发布的完整报告为准。若您并非海通证券客户中的专业投资者,为控制投资风险,请取消订阅、接收或使用本订阅号中的任何信息。本订阅号难以设置访问权限,若给您造成不便,敬请谅解。我司不会因为关注、收到或阅读本订阅号推送内容而视相关人员为客户;市场有风险,投资需谨慎。

在系列专题报告《选股因子系列研究(五十六)——买卖单数据中的Alpha》中,我们基于逐笔成交数据中的买卖单号还原得到了买卖单数据,并构建了大单因子。回测结果表明,大单因子具有较为显著的月度选股能力。随着研究的深入与细化,我们认为大单因子依旧存在改进提升的空间。本文尝试对于大单的界定进行调整与改进,并希望得到兼具逻辑性与选股能力的大单因子。

1

大单因子的改进

在系列报告《选股因子系列研究(五十六)——买卖单数据中的Alpha》中,我们讨论了大单因子的构建。该报告基于逐笔成交数据中的叫买与叫卖单号将逐笔成交数据还原为买卖单数据,并根据每个股票的买卖单分布单独界定大单。在计算各股票大单阈值的时候,报告使用了“N倍标准差”的模式。相比使用绝对阈值界定大单,该种方法具有更强的逻辑性。然而随着研究的深入,我们发现该种界定方法依旧存在有待改进之处。

简单来说,股票买卖单分布存在极为明显的偏度,因此会对标准差的计算产生较大影响,从而影响到大单阈值的确定。对于这一问题,我们可考虑调整买卖单分布,一种较为简单的处理方法就是对数调整。下图对比展示了某股票对数调整前后的买卖单分布。

相比于原始分布,对数调整后的买卖单分布偏度较小,更适合使用“N倍标准差”的方法计算大单阈值。其次,若仅使用单日的股票成交分布界定大单,则可能因为股票成交活跃度的变化影响到大单界定标准的稳定性。因此可考虑使用滚动多个交易日的成交分布计算大单阈值。当然,投资者也可根据自身需求调整这一窗口。

本文在界定大单时使用了多日买卖单成交单数据对数调整后的“均值+1倍标准差”作为大单筛选阈值。(由于标准差阈值的设定会直接影响因子的选股能力,后文中也会讨论不同标准差阈值设定下因子的选股能力。)基于前文提出的计算方法,可界定大单并构建选股因子刻画大单买入行为:

除了大单买入占比以及大单净买入占比外,还可构建大单买入强度以及大单净买入强度刻画大单买入序列的稳健性。具体计算公式如下所示:

由于大单因子旨在刻画具有信息优势的投资者的交易行为,因此除了可使用全天数据计算因子外,还可考虑聚焦于开盘后的30分钟,仅使用开盘后30分钟的数据计算因子。(更多关于日内不同时段数据与高频因子选股能力的讨论可参考《选股因子系列研究(七十)——日内市场微观结构与高频因子选股能力》)

2

因子选股能力回测

2.1

月度选股能力

使用2014年以来的高频数据可对于因子的月度选股能力进行检验,下表展示了改进调整后的大单因子在正交前后的因子月度IC以及前后10%多空收益情况。本文在进行因子正交时剔除了行业因子、市值因子、估值因子、换手率因子、反转因子、波动率因子的影响。

从原始因子的角度看,开盘后大单净买入占比、大单买入强度、开盘后大单买入强度以及开盘后大单净买入强度与未来一个月股票收益正相关,也即,大单买入占比或者大单买入强度越高,股票未来的相对收益表现越好。这一结果与直观逻辑较为吻合。该类因子旨在刻画大资金的买入行为,若假定大资金具有信息优势,则可以预期大资金偏好的标的在未来一段时间会具有更好的收益表现。

为了能够控制常规低频因子的影响,可进行正交处理。大单因子在正交后同样呈现出了极为显著的月度选股能力。相比而言,大单净买入相关的因子具有更强的选股能力。因子的月均IC在0.03~0.05之间,年化ICIR普遍超过3.5,月度胜率高于80%,甚至达到90%的月度胜率。因子同样具有较强的收益区分能力,因子前后10%月均多空收益差在1.3%~1.8%之间,此外,因子也具有一定的多头效应。下图展示了大单净买入类因子在正交后的分10组月均超额收益分布情况。

从时间序列的角度看,大单净买入占比与大单净买入强度因子在2014年以来展现出了较为稳健的收益区分能力。下图展示了因子的多空相对强弱走势。

下表展示了各因子的分年度多空收益。相比而言,大单净买入占比以及开盘后大单净买入占比取得了更高的年化多空收益,年化收益超25%。值得注意的是,各因子在2018年的收益表现相对较差,多空收益普遍低于历史平均水平。相比而言,开盘后大单净买入占比相对较好,该因子在2018年取得了13%的多空收益。

我们同样可从回归法的角度对于上述因子的选股能力进行检验,可将上述因子分别与常规低频因子(行业、市值、中盘、换手率、反转、波动、估值、盈利以及盈利增长)放入多元回归模型进行回归检验。因子的回归系数即为因子溢价,通过因子溢价可得到因子的累计净值。下图展示了各因子的累计净值。

从回归法的角度看,上述因子同样呈现出了显著的选股能力。大单净买入因子的月均溢价在0.35%~0.50%之间,并且因子在大部分年份中皆具有相对较好的收益表现。相比而言,开盘后大单净买入占比的收益性相对更强,该因子在近3年中同样展现出了较强的收益性。下表展示了各因子的月均溢价以及不同年度的月均溢价。

2.2

因子相关性

为了能够进一步分析大单净买入因子的特征,可考察该类因子与常规低频因子间的截面相关性。下表展示了大单净买入因子与常规低频因子之间的截面相关性。从截面相关性可知,大单净买入因子与股票前一个月涨幅具有较强的相关性,也即,大单净买入占比或者强度较高的股票往往在前一个月具有相对较高的涨幅。

我们可进一步考察大单净买入因子收益与常规低频因子收益间的相关性。下表展示了正交后的大单净买入因子IC序列与常规低频因子IC序列之间的相关性。虽然大单净买入因子正交剔除了常规因子,但是开盘后大单净买入占比与开盘后大单净买入强度的IC序列依旧与BP以及盈利因子的收益序列呈现出了较为明显的相关性。

2.3

不同范围内的选股能力

考虑到因子在不同的股票空间中的表现存在差异,因此可考虑大单净买入因子在各指数范围的选股能力。下表展示了因子在不同指数范围内的选股能力。(下表在回测因子选股能力时皆是在全市场完成因子正交处理后放入特定选股空间进行回测分析。)

观察上表可知,大单净买入因子在各指数范围皆呈现出了较为显著的选股能力。与大部分技术因子不同的是,开盘后大单净买入占比以及开盘后大单净买入强度因子在沪深300指数内依旧呈现出了极强的选股能力,部分因子月均IC强于其在全市场下的表现。我们认为大单净买入类因子之所以在沪深300指数范围内依旧有效,是因为该类因子可归类为动量逻辑类的因子,而沪深300指数范围内的股票普遍具有较强的动量性。

在回测分析因子的选股能力时,我们还发现部分大单类因子在沪深300指数范围内单独进行正交处理后,在2019年以及2020年皆呈现出了极强的收益区分能力。不妨以开盘后大单净买入占比因子(使用“均值+0倍标准差”界定大单)为例,下图展示了因子在不同年度的多空收益以及空头收益。观察下图不难发现,因子在沪深300指数范围内选出的多头组合在2019年以及2020年中相对于沪深300指数内股票的平均水平分别取得了22.5%以及25.7%的超额收益。此外,因子也呈现出了较强的多空收益区分能力,因子在上述两年中的多空收益皆超过40%。需要注意的是,该种处理方式虽然能够明显提升大单因子在2019年以及2020年的收益区分能力,但是会在一定程度影响到因子的收益稳定性。投资者需根据自身需求进行选择。

2.4

改进前后因子选股能力对比

由于系列前期报告在界定大单时分别使用了0倍标准差以及1倍标准差进行大单的界定,本节在进行因子选股效果对比时,同样选择了改进方法下标准差阈值为0和1时因子的月度选股能力。不妨以大单净买入占比因子为例,下表对比展示了大单净买入占比因子在改进前后的月度选股能力。

观察上表不难发现,在0倍标准差阈值的设定下,改进前后的因子选股能力差异相对较小,改进后的因子具有更高的年化ICIR以及更高的多头收益。但是在1倍标准差阈值的设定下,改进后的因子明显呈现出了更强的选股能力,且因子的选股能力相比于0倍标准差阈值设定时的变化相对较小,改进后的因子呈现出了更强的稳健性。

3

大单筛选阈值对因子选股效果的影响

由于本文在筛选大单时依赖于大单的设定,因此可考虑改变大单筛选阈值并观察因子选股能力对于相关阈值的敏感性。下表对于展示了不同参数下,大单因子的月均IC以及年化多空收益。

上表结果表明,大单筛选阈值不宜设定得过高与过低。当大单筛选阈值从“均值+1倍标准差”上升至“均值+3倍标准差”时,各因子的选股能力皆呈现出了下降的态势,并且在“均值+3倍标准差”的筛选阈值下,因子的选股能力较弱。这一现象可理解为,在筛选条件过于严苛的情况下,绝大部分股票无法有效筛选得到大单,由此导致不同股票的因子值区分度较低。

当大单筛选阈值从“均值+1倍标准差”下降至“均值-1倍标准差”时,因子的选股能力同样出现了减弱。值得注意的是,大单净买入因子的选股能力在大单筛选阈值下降至“均值”时并未出现明显变化,部分因子的选股能力甚至出现了微幅提升。当大单筛选阈值进一步降低至“均值-1倍标准差”时,因子虽然依旧呈现出了一定的选股能力,但是相比于大单筛选阈值为“均值”时出现了极为明显的下降。

结合上述测试结果,大单净买入因子对于大单筛选阈值具有一定的敏感性,但是筛选阈值在“均值”至“均值+1倍标准差”时的稳定性相对较强。

考虑到通过单成交分布得到的大单筛选阈值完全取决于股票自身的成交情况,因此该种方法在面对成交单面额较小的股票时界定得到的大单阈值并不能真正筛选出大单。因此可考虑在单成交分布大单阈值的基础之上增加绝对金额的限制。

大单筛选阈值 = max(基于分布的大单筛选阈值,绝对金额阈值)

值得注意的是,虽然加入绝对金额的限制能够使大单的界定更具有逻辑性,但是该种方法同样会引入新的参数——绝对金额阈值。下表展示了不同绝对金额阈值以及不同标准差阈值的结合下因子的选股能力。

在标准差阈值较低时(“均值-1倍标准差”),绝对金额阈值的引入能够明显改善大单净买入因子的选股能力,绝对金额阈值为5万以及10万时,因子的选股能力皆相比于无绝对金额约束时出现了较为明显的改善。值得注意的是,绝对金额阈值同样不宜设定得过高。当绝对金额阈值设定为50万时,绝对金额阈值在大部分情况下高于标准差阈值,从而无效化了标准差阈值,因此大单因子的选股能力出现了极为明显的减弱。

在标准差阈值设定得较为适中时(“均值”至“均值+2倍标准差”),绝对金额阈值的引入并未明显影响因子的选股能力。在绝对金额阈值为5万以及10万时,因子的月均IC以及月均多空收益的变化并不明显。在标准差阈值较大时(“均值+3倍标准差”),绝对金额阈值的引入同样未对于因子的选股能力产生明显影响。

结合上述结果,绝对金额阈值的引入具有较强的逻辑性,在标准差阈值较低时,该指标的引入能够在一定程度上保证大单净买入因子的选股能力,但是在标准差阈值设定适中的情况下,该指标的引入并未带来的因子选股能力的变化。因此,该指标的引入并非必须,可作为一个双重保险机制引入大单的界定,投资者可根据自身需求决定是否需要引入绝对金额阈值。

4

组合表现对比

4.1

沪深300增强组合对比

可将前文构建得到的开盘后大单净买入占比因子以及开盘后大单净买入强度因子放入多因子模型并构建沪深300指数增强组合。下表展示了组合在不同年度的风险收益特征。

在加入大单因子后,组合整体表现有所提升,且在2020年的超额收益表现得到了进一步的增强。在加入开盘后大单净买入占比因子后,模型在2016、2017、2018以及2020年的超额收益皆得到了提升。下图对比展示了各模型相对于沪深300指数的相对强弱走势。

4.2

中证500增强组合对比

同样可将前文构建得到的大单净买入占比因子以及大单净买入强度因子放入多因子模型并构建中证500指数增强组合。下表展示了组合在不同年度的风险收益特征。

对于中证500指数增强组合,大单因子在加入组合后并未明显影响组合的全区间收益表现。在加入开盘后大单净买入强度因子后,组合在2019以及2020年的超额收益有所提升。

5

总结

本文在系列前期报告的基础上,改进调整了股票大单的筛选流程。在经过对数调整以及多日数据叠加后,本文基于股票单成交分布,通过“均值+N倍标准差”的方式筛选得到了大单,并基于大单构建了大单类因子。

回测结果表明,大单净买入占比以及大单净买入强度两类因子在剔除了常规低频因子的影响后依旧具有较为显著的月度选股能力。在不同的选股空间中,两类因子同样具有较为稳健的选股能力。

此外,本文还回测了大单筛选阈值N对于大单因子选股效果的影响。回测结果表明,N在0~2时,大单净买入因子皆呈现出了较为显著的月度选股能力。为了能够使大单筛选阈值更加具有逻辑性,可在大单筛选阈值的计算过程中引入绝对金额阈值。实际回测结果表明,绝对金额阈值能够在标准差阈值设定过低的情况下保证因子的选股能力,但并不能在标准差阈值设定适中的情况下带来因子选股能力的明显改变。

最后,本文也尝试将大单净买入因子引入多因子模型,回测结果表明,大单净买入因子的引入能够提升组合的收益表现。

6

风险提示

市场系统性风险、资产流动性风险以及政策变动风险会对策略表现产生较大影响。

联系人:袁林青,021-23212230