用机器学习来预测本届世界杯结果?
什么是机器学习?
Machine Learning, 即机器学习,是指通过电脑使用算法来解析数据并从中学习,然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。
变幻莫测的世界杯
上周四开启的俄罗斯世界杯堪称又一大全球盛事,想必各位家长的朋友圈都无一幸免遭到世界杯的刷屏。而这届世界杯也是目前最多反转的一次:墨西哥战胜德国,日本战胜哥伦比亚,令所有球迷跌破眼镜。那么问题来了,像足球这么变化莫测的体育活动,究竟有没有一种办法,可以准确预测呢?近日,科学家通过电脑10000次模拟世界杯比赛得出了一个预测结果。
日本在上届比赛中曾经惨败哥伦比亚,但今年成功反转赛果
传统预测办法
传统的预测世界杯结果的其中一种方法是看庄家的赔率。因为这些博彩公司使用专业统计学家分析广泛的结果数据库,以量化任何可能匹配的不同结果的概率。通过这种方式,博彩公司可以在未来几周开始的所有赛事中提供赌球的赔率,这当然也包括了获胜队的赔率。
如果你想更准确地预测结果,你还可以将许多不同的庄家赔率结合起来。通过这种方法,显示出巴西仍然是2018年世界杯冠军的头号热门,她赢得2018年世界杯的概率为16.6%,其次是德国(12.8%)和西班牙(12.5%)。但近年来,研究人员已经开发出机器学习技术,有可能超越传统的统计方法。这些新技术预示着2018年世界杯的冠军将会是……
机器学习
来自德国的Dortmund科技大学的Andreas Groll和他的同事给出了答案。他们通过结合机器学习和传统统计学的优势,创立了一种叫随机森林(Random-Forest Approach)的方法来预测本次世界杯的优胜者。
先来科普一下知识背景。近年来,随机森林技术已经成为一种强大的分析大数据集的方法,同时避免了其他数据挖掘方法的一些缺陷。它的基本思想在于:未知的事件可以通过决策树来确定,在决策树中,每个分支的结果都是参照一组训练数据计算出来的。
一组以选择吃什么类型薯条为例的决策树
然而,决策树有一个明显的缺陷。在分支的后期阶段,越靠后的决策可能性越多越庞杂从而导致预测结果严重扭曲,这是一个被称为过度拟合的问题(Overfitting)。但随机森林方法与此不同,随机森林不计算每个分支的结果,而是随机计算某一分支的结果。它就这样反复计算,每次都计算一组随机选择的分支,最后取这些随机构造的决策树的平均值。
越复杂的树在实际应用中的准确率越低
随机森林方法有很大的优点。首先,它不存在普通决策树的过度拟合问题,同时还揭示了哪些因素是最影响结果的。因此,如果一个特定的决策树包含大量的参数,那么就很容易看出哪些参数对结果的影响最大,哪些对结果没有影响。这些不那么重要的因素在将来可以被忽视。
Groll和他的同事正是用这种方法来模拟2018年世界杯。他们模拟每一场可能匹配在一起的球队的比赛结果,并利用结果来推测整个赛程的走向。Groll和他的同事从一系列可能影响世界杯比赛结果结果的潜在因素开始。这些因素包括经济因素,比如一个国家的GDP和人口,国家队在国际足联(FIFA)中的排名,以及球队本身的属性,比如队员的平均年龄,他们拥有的冠军联赛球员的数量,他们是否拥有主场优势等等。
业余排名也可以被计入影响比赛结果的因素,比如博彩公司使用的排名。Groll将所有这些数据输入到预测模型中排查并得到了关键的数据。例如,最影响比赛获胜结果的因素是排名,包括来自博彩公司、国际足联和其他机构的排名。其他重要因素包括这个国家的GDP和球队所包含的欧冠球员的数量。不重要的因素包括国家人口、教练员的国籍等。
通过这一过程得出的预测结果与传统预测方法有明显的不同。首先,随机森林方法选出西班牙为最有可能的赢家,概率为17.8%。不过,这一预测成立的一个重要因素是比赛的小组进程。如果德国队在小组赛中获胜,那么在16队淘汰赛阶段,德国将更有可能面临强敌。正因为如此,随机森林法计算出德国进入四分之一决赛的几率为58%。相比之下,西班牙在16强中不太可能遇到强劲的对手,因此进入四分之一决赛的几率为73%。
如果两队都进入了四分之一决赛,那他们赢得冠军的概率均等。但Groll认为,西班牙要比德国略胜一筹,因为德国有相对更高的机会在16强遭遇强敌而被淘汰。但这也不是必然的。出于随机决策树的计算并对整个赛程进行预测,有可能会得出一个不同的结局。Groll将整个赛程模拟了10万次,得出结论“在这10万次模拟中,最有可能夺冠的是德国而不是西班牙。”
所以总结来说,在世界杯开始之时,西班牙有最高的几率获胜。但是如果德国进入了四分之一决赛的话,德国就是更有希望的人选。而本届的东道主俄罗斯在Groll的预测中,似乎连进入四分一决赛的机会都没有。
英文原文来自 EmergTechnology from the arXiv