前沿学科,机器学习!

来源: 尔湾karen 2018-06-20 12:21:58 [] [旧帖] [给我悄悄话] 本文已被阅读: 次 (52363 bytes)

用机器学习来预测本届世界杯结果?

什么是机器学习?

Machine Learning, 即机器学习,是指通过电脑使用算法来解析数据并从中学习,然后对真实世界中的事件做出决策和预测。与传统的为解决特定任务、硬编码的软件程序不同,机器学习是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。

 

变幻莫测的世界杯

 

上周四开启的俄罗斯世界杯堪称又一大全球盛事,想必各位家长的朋友圈都无一幸免遭到世界杯的刷屏。而这届世界杯也是目前最多反转的一次:墨西哥战胜德国,日本战胜哥伦比亚,令所有球迷跌破眼镜。那么问题来了,像足球这么变化莫测的体育活动,究竟有没有一种办法,可以准确预测呢?近日,科学家通过电脑10000次模拟世界杯比赛得出了一个预测结果。

 

 

日本在上届比赛中曾经惨败哥伦比亚,但今年成功反转赛果

 

传统预测办法

传统的预测世界杯结果的其中一种方法是看庄家的赔率。因为这些博彩公司使用专业统计学家分析广泛的结果数据库,以量化任何可能匹配的不同结果的概率。通过这种方式,博彩公司可以在未来几周开始的所有赛事中提供赌球的赔率,这当然也包括了获胜队的赔率。

 

如果你想更准确地预测结果,你还可以将许多不同的庄家赔率结合起来。通过这种方法,显示出巴西仍然是2018年世界杯冠军的头号热门,她赢得2018年世界杯的概率为16.6%,其次是德国(12.8%)和西班牙(12.5%)。但近年来,研究人员已经开发出机器学习技术,有可能超越传统的统计方法。这些新技术预示着2018年世界杯的冠军将会是……

 

 

机器学习

来自德国的Dortmund科技大学的Andreas Groll和他的同事给出了答案。他们通过结合机器学习和传统统计学的优势,创立了一种叫随机森林(Random-Forest Approach)的方法来预测本次世界杯的优胜者。

 

先来科普一下知识背景。近年来,随机森林技术已经成为一种强大的分析大数据集的方法,同时避免了其他数据挖掘方法的一些缺陷。它的基本思想在于:未知的事件可以通过决策树来确定,在决策树中,每个分支的结果都是参照一组训练数据计算出来的。

 

一组以选择吃什么类型薯条为例的决策树

 

然而,决策树有一个明显的缺陷。在分支的后期阶段,越靠后的决策可能性越多越庞杂从而导致预测结果严重扭曲,这是一个被称为过度拟合的问题(Overfitting)。但随机森林方法与此不同,随机森林不计算每个分支的结果,而是随机计算某一分支的结果。它就这样反复计算,每次都计算一组随机选择的分支,最后取这些随机构造的决策树的平均值。

 

越复杂的树在实际应用中的准确率越低

 

随机森林方法有很大的优点。首先,它不存在普通决策树的过度拟合问题,同时还揭示了哪些因素是最影响结果的。因此,如果一个特定的决策树包含大量的参数,那么就很容易看出哪些参数对结果的影响最大,哪些对结果没有影响。这些不那么重要的因素在将来可以被忽视。

 

Groll和他的同事正是用这种方法来模拟2018年世界杯。他们模拟每一场可能匹配在一起的球队的比赛结果,并利用结果来推测整个赛程的走向。Groll和他的同事从一系列可能影响世界杯比赛结果结果的潜在因素开始。这些因素包括经济因素,比如一个国家的GDP和人口,国家队在国际足联(FIFA)中的排名,以及球队本身的属性,比如队员的平均年龄,他们拥有的冠军联赛球员的数量,他们是否拥有主场优势等等。

 

业余排名也可以被计入影响比赛结果的因素,比如博彩公司使用的排名。Groll将所有这些数据输入到预测模型中排查并得到了关键的数据。例如,最影响比赛获胜结果的因素是排名,包括来自博彩公司、国际足联和其他机构的排名。其他重要因素包括这个国家的GDP和球队所包含的欧冠球员的数量。不重要的因素包括国家人口、教练员的国籍等。

 

通过这一过程得出的预测结果与传统预测方法有明显的不同。首先,随机森林方法选出西班牙为最有可能的赢家,概率为17.8%。不过,这一预测成立的一个重要因素是比赛的小组进程。如果德国队在小组赛中获胜,那么在16队淘汰赛阶段,德国将更有可能面临强敌。正因为如此,随机森林法计算出德国进入四分之一决赛的几率为58%。相比之下,西班牙在16强中不太可能遇到强劲的对手,因此进入四分之一决赛的几率为73%

 

如果两队都进入了四分之一决赛,那他们赢得冠军的概率均等。但Groll认为,西班牙要比德国略胜一筹,因为德国有相对更高的机会在16强遭遇强敌而被淘汰。但这也不是必然的。出于随机决策树的计算并对整个赛程进行预测,有可能会得出一个不同的结局。Groll将整个赛程模拟了10万次,得出结论“在这10万次模拟中,最有可能夺冠的是德国而不是西班牙。”

 

所以总结来说,在世界杯开始之时,西班牙有最高的几率获胜。但是如果德国进入了四分之一决赛的话,德国就是更有希望的人选。而本届的东道主俄罗斯在Groll的预测中,似乎连进入四分一决赛的机会都没有。

 

英文原文来自 EmergTechnology from the arXiv

所有跟帖: 

也不算那么新了,这些算法俺都做过的 -linda2- 给 linda2 发送悄悄话 linda2 的博客首页 (0 bytes) () 06/20/2018 postreply 12:23:14

都不稀奇了 -linda2- 给 linda2 发送悄悄话 linda2 的博客首页 (0 bytes) () 06/20/2018 postreply 12:56:44

哪个?决策树还是随机森林? -尔湾karen- 给 尔湾karen 发送悄悄话 (98 bytes) () 06/20/2018 postreply 12:27:47

都干过呀!都有好多年的历史了 -linda2- 给 linda2 发送悄悄话 linda2 的博客首页 (0 bytes) () 06/20/2018 postreply 12:56:26

機器可以算? -mif2016- 给 mif2016 发送悄悄话 (165 bytes) () 06/20/2018 postreply 12:36:27

要机器嘛?费电!章鱼保罗仙逝了,不是还有奇丽士猫,耐力象和预测仙袋鼠吗? -糖果果- 给 糖果果 发送悄悄话 糖果果 的博客首页 (395 bytes) () 06/20/2018 postreply 15:39:00

哈哈哈哈哈哈这个好!你懂的真多 -尔湾karen- 给 尔湾karen 发送悄悄话 (0 bytes) () 06/20/2018 postreply 16:15:00

请您先登陆,再发跟帖!

发现Adblock插件

如要继续浏览
请支持本站 请务必在本站关闭/移除任何Adblock

关闭Adblock后 请点击

请参考如何关闭Adblock/Adblock plus

安装Adblock plus用户请点击浏览器图标
选择“Disable on www.wenxuecity.com”

安装Adblock用户请点击图标
选择“don't run on pages on this domain”