前沿学科，机器学习！

来源: 尔湾karen 于 2018-06-20 12:21:58 [档案] [旧帖] [给我悄悄话] 本文已被阅读：次 (52363 bytes)

用机器学习来预测本届世界杯结果？

什么是机器学习？

Machine Learning, 即机器学习，是指通过电脑使用算法来解析数据并从中学习，然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同，机器学习是用大量的数据来“训练”，通过各种算法从数据中学习如何完成任务。

变幻莫测的世界杯

上周四开启的俄罗斯世界杯堪称又一大全球盛事，想必各位家长的朋友圈都无一幸免遭到世界杯的刷屏。而这届世界杯也是目前最多反转的一次：墨西哥战胜德国，日本战胜哥伦比亚，令所有球迷跌破眼镜。那么问题来了，像足球这么变化莫测的体育活动，究竟有没有一种办法，可以准确预测呢？近日，科学家通过电脑10000次模拟世界杯比赛得出了一个预测结果。

日本在上届比赛中曾经惨败哥伦比亚，但今年成功反转赛果

传统预测办法

传统的预测世界杯结果的其中一种方法是看庄家的赔率。因为这些博彩公司使用专业统计学家分析广泛的结果数据库，以量化任何可能匹配的不同结果的概率。通过这种方式，博彩公司可以在未来几周开始的所有赛事中提供赌球的赔率，这当然也包括了获胜队的赔率。

如果你想更准确地预测结果，你还可以将许多不同的庄家赔率结合起来。通过这种方法，显示出巴西仍然是2018年世界杯冠军的头号热门，她赢得2018年世界杯的概率为16.6%，其次是德国(12.8%)和西班牙(12.5%)。但近年来，研究人员已经开发出机器学习技术，有可能超越传统的统计方法。这些新技术预示着2018年世界杯的冠军将会是……

机器学习

来自德国的Dortmund科技大学的Andreas Groll和他的同事给出了答案。他们通过结合机器学习和传统统计学的优势，创立了一种叫随机森林（Random-Forest Approach）的方法来预测本次世界杯的优胜者。

先来科普一下知识背景。近年来，随机森林技术已经成为一种强大的分析大数据集的方法，同时避免了其他数据挖掘方法的一些缺陷。它的基本思想在于：未知的事件可以通过决策树来确定，在决策树中，每个分支的结果都是参照一组训练数据计算出来的。

一组以选择吃什么类型薯条为例的决策树

然而，决策树有一个明显的缺陷。在分支的后期阶段，越靠后的决策可能性越多越庞杂从而导致预测结果严重扭曲，这是一个被称为过度拟合的问题（Overfitting）。但随机森林方法与此不同，随机森林不计算每个分支的结果，而是随机计算某一分支的结果。它就这样反复计算，每次都计算一组随机选择的分支，最后取这些随机构造的决策树的平均值。

越复杂的树在实际应用中的准确率越低

随机森林方法有很大的优点。首先，它不存在普通决策树的过度拟合问题，同时还揭示了哪些因素是最影响结果的。因此，如果一个特定的决策树包含大量的参数，那么就很容易看出哪些参数对结果的影响最大，哪些对结果没有影响。这些不那么重要的因素在将来可以被忽视。

Groll和他的同事正是用这种方法来模拟2018年世界杯。他们模拟每一场可能匹配在一起的球队的比赛结果，并利用结果来推测整个赛程的走向。Groll和他的同事从一系列可能影响世界杯比赛结果结果的潜在因素开始。这些因素包括经济因素，比如一个国家的GDP和人口，国家队在国际足联（FIFA）中的排名，以及球队本身的属性，比如队员的平均年龄，他们拥有的冠军联赛球员的数量，他们是否拥有主场优势等等。

业余排名也可以被计入影响比赛结果的因素，比如博彩公司使用的排名。Groll将所有这些数据输入到预测模型中排查并得到了关键的数据。例如，最影响比赛获胜结果的因素是排名，包括来自博彩公司、国际足联和其他机构的排名。其他重要因素包括这个国家的GDP和球队所包含的欧冠球员的数量。不重要的因素包括国家人口、教练员的国籍等。

通过这一过程得出的预测结果与传统预测方法有明显的不同。首先，随机森林方法选出西班牙为最有可能的赢家，概率为17.8%。不过，这一预测成立的一个重要因素是比赛的小组进程。如果德国队在小组赛中获胜，那么在16队淘汰赛阶段，德国将更有可能面临强敌。正因为如此，随机森林法计算出德国进入四分之一决赛的几率为58%。相比之下，西班牙在16强中不太可能遇到强劲的对手，因此进入四分之一决赛的几率为73%。

如果两队都进入了四分之一决赛，那他们赢得冠军的概率均等。但Groll认为，西班牙要比德国略胜一筹，因为德国有相对更高的机会在16强遭遇强敌而被淘汰。但这也不是必然的。出于随机决策树的计算并对整个赛程进行预测，有可能会得出一个不同的结局。Groll将整个赛程模拟了10万次，得出结论“在这10万次模拟中，最有可能夺冠的是德国而不是西班牙。”