用机器学习方法建模
逐渐地,艾克斯意识到他们需要更复杂的数学模型来指导交易,前几年没有这样做的主要原因是计算机的算力不足,现在他认为也许是时候做了。
长期以来,艾克斯相信金融市场和马尔可夫链有相同的特征,都是下一件事情的发生仅仅依赖当前的状态。在马尔科夫(链)过程,每一个状态都不可能精确的预测,但是如果有了合适的模型,就能以一定的精确度去预测。10年前,西蒙斯和鲍姆在IDA时开发的交易模型,就是假设市场以类似马尔可夫过程那样运行的。
为了改进他们的预测模型,艾克斯认为是时候引进一位有开发随机方程方面经验的人,马尔可夫链就是随机方程家族的一员。随机方程是对动态过程建模,该过程随时间的推移而变化,可能涉及较高水平的不确定性。斯特劳斯最近读到的文献也建议说随机方程对于交易模型的建立是很有价值的工具,他俩都觉得有必要招一位这方面的数学家。
不久,加州大学欧文分校的教授卡莫纳,就接到了朋友的来电。
“有一个数学家小组在做随机微分方程,他们正在寻找帮助,”朋友说。“你对那个事情了解多少?”
卡莫纳当时41岁,出生在法国,后来去了普林斯顿数学系任教授,他不了解投资或者金融市场,但是随机微分方程正是他的专业。这些方程可以利用表面上随机的数据做预测;例如天气预报模型,利用随机方程产生合理的精确估计。Axcom的团队成员们,从数学的角度看待投资,认为金融市场是复杂的、不断演变的,行为难以预测,至少预测一段较长时间的变化是不容易的—就像随机过程一样。
西蒙斯、艾克斯以及斯特劳斯他们认为投资和随机过程有相似之处,其实并不难看出这一点。首先,他们都不相信金融市场真的是“随机行走”,也就是说完全不可预测的,这是当时学术界的主流观点。其次像西蒙斯和艾克斯这样的数学家认为市场和天气预报一样都有随机性,所以未来价格是有一个概率分布的,利用随机过程就可以把价格走势可能出现的结果找出来,这可以帮助改进他们的投资模型。
卡莫纳当时还在为一家本地的航天公司做咨询,当然乐意一周抽出几天为Axcom工作,既能得到额外的报酬又有兴趣迎接改进交易结果的挑战,何乐而不为呢?
”目标是建立数学模型并利用它作为分析框架来推断因果关系以及得出结论,”他说。“这个游戏不要求始终正确,只要能经常正确就够了。”
卡莫纳不确定这种方法是否有效,甚至也不确定该方法是否比当时大多数人采用的非定量投资策略好。
“如果我对交易心理或者交易所的交易员有更好的理解,也许我们会这样做,”卡莫纳说。
一开始,卡莫纳用斯特劳斯的数据试图改进Axcom现存的数学模型,没有取得什么进展,尽管他的模型更复杂。后来,文艺复兴科技只是用随机微分方程进行风险管理和期权定价,而此刻,这种技术并没有给他们带来利润,这让卡莫纳很泄气。
到1987年,卡莫纳竟然有了负罪感,因为他的报酬来自艾克斯私人奖金的一部分,可是对公司的贡献几乎为零,他决定暑期全职为Axcom工作,希望投入更多的精力和时间。可惜还是进展不大,进一步加重了他的负罪感。艾克斯和斯特劳斯看上去并不在意,但是卡莫纳感觉糟透了。
“我从他们那里拿了钱,却什么有用的工作都没做,”他说
一天,卡莫纳有了个想法。Axcom一直在探索各种利用价格数据进行交易的方法,包括突破信号。他们还利用简单线性回归这个基本的预测工具,基于这种线性关系将继续保持的假设,该方法被许多投资者用来分析两组数据或者变量之间的关系。比如,以x轴为原油价格,y轴为汽油的价格,根据这些数据点可以画出回归直线,已知原油价格时你通常能够很好的预测出汽油的价格。
然而,市场价格有时却无处不在,利用线性回归模型预测未来的价格,总体上效果不佳。实际上,市场价格可能受到突变的因素影响,比如突如其来的大暴雪、恐慌性抛售、地缘冲突等等,这些都应该是非线性的影响。所以卡莫纳认为分析数据中的非线性相关关系应该是有用的。
卡莫纳想到的方法是让计算机搜索斯特劳斯积累的数据来发现有没有这种非线性的相关性,比如过去曾出现的一种场景,看看价格对此如何反应,在检查类似场景下股价会怎么变化,这样就能开发出一种复杂但不失精确的预测模型,可以用于识别隐藏的模式。
这种方式奏效的前提是有大量的数据,比斯特劳斯他们已经收集的数据还要多得多。为了解决这个问题,斯特劳斯开始对数据建模,而不仅仅是收集数据。为了处理历史价格数据中的跳空缺口,他利用计算机模型对缺失的部分进行合理的模拟。例如,他们没有20世纪40年代大量的棉花数据,也许创造出这些数据就能满足需求。正如人们可以通过观察已经存在的拼图块来推断缺失的拼图块可能是什么样子一样,Axcom团队对缺失的信息进行推断,并把模拟结果输入数据库。
卡莫纳建议让计算机来分析这些数据并输出买卖建议,某种意义上就是早期的机器学习系统。模型可以基于各种复杂的模式、群集、相互关系来预测商品价格走势,这些关系都是卡莫纳和其他同事不理解也无法用肉眼观察出的。
在其他领域,统计学家们使用类似的方法,即核方法(kernel methods),来分析数据集中的模式。回到长岛那边,亨利·劳弗在自己的研究中,也正在开发类似的机器学习策略,并准备于西蒙斯和其他人分享。卡莫纳不晓得劳弗的工作。他只是建议使用复杂的算法,为对艾克斯和斯特劳斯提供一个分析框架,以识别出当前价格与历史价格类似的模式。
“你们应该用这个方法,”卡莫纳敦促他的同事们。
当他们跟西蒙斯分享了这个方法后,一开始他并不能接受,因为之前用的线性方程得出的交易和资金配置建议是好理解的,相反,现在用卡莫纳的程序跑出来的结果背后的逻辑却不清晰。他的方法不是基于一个可以让西蒙斯和同事们简化为一组标准方程的模型,这让西蒙斯很恼火。卡莫纳的结果来自于持续运行数小时的程序,让计算机挖掘模式和生成交易。对西蒙斯来说,就是觉得不对劲。
“程序告诉我的这些,让我不舒服,”一天,西蒙斯告诉团队。“我不能理解程序为什么要买而不是卖。”
后来西蒙斯更加的恼火。
“这就是个黑箱!”他沮丧地说。
卡莫纳虽然认同西蒙斯的观点,但是坚持己见。
“跟从数据分析的结果。”他说。“不是我,是数据(得出的)。”
艾克斯和卡莫纳的关系发展良好,已经成为这种方法的拥趸,跟西蒙斯据理力争。
“这方法管用,吉姆,”艾克斯对西蒙斯说。“并且是有理性含义的,因为人不能预测价格。”
让电脑来做吧,艾克斯敦促西蒙斯。实际上西蒙斯一开始就希望用模型来为交易做决策,只是还不能彻底接受这种革命性的方法,理性上他是想完全依赖模型;感情上似乎还没准备好。
“吉姆喜欢弄清楚模型在做什么,”斯特劳斯说。“他不是特别喜欢核方法。”
随着时间的推移,斯特劳斯和他的同事们创建并发现了更多的历史价格数据,帮助艾克斯根据卡莫纳的建议,开发新的预测模型。他们后来发现了一些每周股票交易价格数据,可以追溯到19世纪,这些可靠的信息几乎没有其他人可以获得。当时,他们团队无法对这些数据做太多的研究,但是通过搜索历史来了解市场对不寻常事件的反应的能力,以后将帮助西蒙斯团队建立模型,从市场崩溃以及其他黑天鹅事件中盈利,帮助公司战胜市场。
Axcom团队采用这种方法后,业绩很快就有了改进,他们又开始用多维核回归方法建模,发现对于趋势模型效果最好,可以预测价格趋势持续的时间。
西蒙斯相信他们可以做得更好。卡莫纳的想法有帮助,但还不够。西蒙斯打电话,有时还亲自过来,希望能提高Axcom的业绩,但他在公司里面做得最多的是筹集资金、让客户们满意。当时他们的规模已经到了1亿美元,有一半的资金投资在初创型的科技企业,这部分投资是由西蒙斯亲自负责的。
为了加强团队的数学力量,西蒙斯安排了一位受人尊敬的学者来公司做咨询。此举将为公司实现历史性突破奠定基础。