【人物】大卫·哈丁:什么才是量化投资中的最大挑战?

好买说:大卫·哈丁认为,数据质量的好坏对研究结论影响重大,在量化投资中,提升数据质量与扩展数据规模同等重要,数据清理与策略开发同等重要。

数据质量至关重要

2016年9月《科学》杂志上刊登了一篇题为“狗的词汇处理神经机制”的文章。作者是一个匈牙利神经科学家团队,他们的结论以通俗的语言说就是狗也能够分别处理人类言语的意义和语气。更具体地说,作者通过研究狗大脑的 MRI 扫描发现,和大部分人类类似,狗也通过左脑来处理单词的含义。这些发现很有意思,因为它们可以通 过比较研究来帮助理解人类语言处理能力的演变。

然而,一年后该杂志发表了一篇“勘误”,其中揭示了之前文章中把狗的左右脑混淆了,原因是由于“解释 MRI图像的坐标,特别是在解释MRI扫描仪下人和狗的不同身体姿势的过程中出现了错误。”换句话说,该文章的部分分析和发现是基于完全错误的数据。狗其实不会用左脑思考单词的含义,就像它们不喜欢背躺在MRI扫描仪上一样。

这只是数据质量问题会影响科学领域的一个小(尽管很滑稽)的例子,即使是一些最严肃的科学研究也无法幸免这个问题的困扰。正如Steve Hawking所说:“不良数据的代价是对知识的错觉”。幸运的是,据该杂志称,上述错误并未影响本文的主要结论,但基于错误数据的很多其他研究导致了更为昂贵的后果。这不仅仅是学术研究中的一个问题,而是任何涉及根据数据做出决策的过程中都有可能出现的问题。在量化投资研究领域,我们使用与科学相似的方法来寻找财务数据中的规律,同样的问题也是最大的挑战之一。

数据清理与策略开发同等重要

我们都知道,我们的研究发现只能来自于要么是对现有数据上的新发现,要么是对新数据的研究,而前者显然是越来越困难。关于数据数量的重要性已经被经常被强调,并且通常被展示为一大优势。但是数据的质量同样重要,但它的工作经常在幕后。供应商提供的数据中的错误令人惊讶的常见,从“胖手指”错误到对同一事件的不一致报告等等。因为后续数据修订而在历史数据集中无法进行适当同步变更时,也常常会导致差异。

一般而言,基本面数据比技术面数据更为混乱,股票市场数据比期货市场更加混乱。但即使数据正确,报告的准则标准,交易惯例和指数方法也都会随着时间而变化。如果不理解即使是高质量数据背后的逻辑,则同样存在问题。清理数据需要花费大量的时间,耐心和经验,其工作本身与策略的开发同样重要。

在元盛,我们会仔细检查所有数据,尽可能交叉引用不同来源。我们会通常订阅多个数据供应商,以允许我们交叉验证数据集并对其进行统计检查以检测任何异常。我们还重建索引以将我们的数据与公布的指数回报进行比较。在上海办公室,我们拥有一支由专业数据工程师组成的小团队,他们在过去几年一直致力于扩展和清理我们的期 货和股票市场数据。他们与我们的研究团队密切合作,确保在开发和回溯假设等任何工作开始之前,已达到和把控数据在一定程度上的准确性和可理解性。通过仔细研究每个细节,使得我们对基于这些数据开发的模型更有信心。

持续加大中国市场投入

最后,我们想谈谈中国团队的发展情况。在过去的几个月里,为确保有合适的资源继续发展,我们一直在努力扩大团队,并在上海办公室进行了数十次的面试。今年以来在研究,交易和技术等职能上已经有多名新同事陆续到岗,并且仍有一些职能正在招聘中。此外,距离我们注册成为私募基金管理人的时点已经过去了一周年,我们将会向中国证券投资基金业协会提交申请注册成为能向合格中国机构提供投资建议服务的管理人。通过在中国的持续投资,我们希望确保这里的业务能够在长期的发展中做好准备。

免责声明:本文转载自元盛资本,文章版权归原作者所有,内容仅供参考并不构成任何投资及应用建议。

风险提示:投资有风险。相关数据仅供参考,不构成投资建议。投资人请详阅基金合同和基金招募说明书,确认您自觉履行投资人的各项义务,并自行承担投资风险。

版权所有 好买Copyright © howbuy.com, inc 2014. All rights reserved. [沪ICP备08003295号]

关于好买私募 | 联系我们 | 诚聘英才 | 网站地图 | 使用条款 | 隐私条款 | 风险提示