数字江湖的琅琊榜
文章来源: 阎立华2017-06-24 14:18:42

 

“白鹿原”好看,但沉重。太太说不如“楚乔传”,架空穿越剧,帅哥玛丽苏,轻松。我瞧不起这种YY,可也乐意躲那里做个梦。

 

做梦可能比现实更重要,了不起的盖茨比就靠他梦中的黛西活着,他的黛西不是那个叫黛西的女人。梦没了,他就死了。

 

今天说一个梦的弱化版:网上江湖。互联网上有一个数据科学家扬名立万的地方,叫kaggle,本是一个澳大利亚的公司,后来被google收购。

 

kaggle隔三差五地搞competition,各路英雄竞相登台,大打出手,为江湖地位。每个competition都有一个即时排名。排名前三的有钱拿,那是为一些疯子般的偏执者准备的。

 

作为数据科学的菜鸟,我也报了一个,下了数据,一番折腾后,提交预测结果,1分钟后,网上弹出排名。菜鸟的心慌如同初恋,不知江湖深浅啊。

 

开始成绩不理想,只能闭关修炼,再次出手,排名嗖地窜升,跳进top 10%,激动,不再回顾排我后面的弱者,紧紧盯着那些领先者。

 

好景不长,转眼就是周末,我玩回来一上网,排名下了好几十位,网上高手多,一天不学习,赶不上刘少奇。得,再度闭关。

 

我参加的是一个next basket的项目:商店里有购买历史,猜猜下次顾客来会买啥。问题很简单,人心很复杂,购物很多时候是个随性的过程,买与不买都在一念间,一口断定某个必买肯定是扯淡,只能猜个可能性。

 

虽然我也算一个IT专业人士,可睁眼到江湖上一瞧,落伍了。

 

行走江湖靠两条,一个是兵器,一个是招数。我们这代人在学IT时,兵器很粗糙,不少时间用在打磨利器上,琢磨招数的时间相对偏少。

 

现在江湖变了,信息畅通,谁是屠龙刀,谁是倚天剑,一目了然。而且,虚拟江湖上的兵器是不要钱的,完全free,无限copy。

 

目前数据科学排名第一的大杀器叫xgboost,高手武器库必备。自古英雄出少年,这个杀器是华盛顿大学的一个华裔小孩子做出来的。自豪吧,华人。

 

稍摸着点江湖门道的人都会用xgboost,那真正的比试全靠招数,俗话叫点子。以前我们瞧不起光有点子的人,因为点子离现实的距离很远。比如,有人吹牛要做一个亘古未见的高楼,我们瞧不起他,他没法靠他一个人建楼。

 

现在不同了,只有想不出,没有做不出。在数据科学领域,尤其如此,好用的工具随手可拾,只要点子好,搭建是相对容易的。这也是为什么江湖上少年英雄倍出,他们脑子快点子新,稍微认真点,就能真的出东西。

 

那老江湖是不是没法混了?倒也不是,也有成精的。kaggle有一个总排名,数据科学的琅琊榜,排名靠前的多是男的。象刘涛能进琅琊榜前十,贝微微在PK榜上靠前,这在数字江湖里,基本上不可能,原因嘛,我猜是她们太漂亮。

 

数据琅琊榜有6万多人。先看排名第二的,是个俄罗斯人,住在莫斯科,有头像,白白的,胖胖的,愣愣的。据说他是克格勃雇佣的国家级黑客。

 

他在网上泄露了一些初级武功,入门招数。打开研读,风格诡异。极简,在打字的数量上;极深,在每行语句的能量上。

 

总排行榜的冠军是一个美国人,住在三藩,看上去是个正常人,因为他在正经公司就职,airbnb。这人看面相,就是路人甲,没特点,记不住。

 

这两位看岁数都不算小,老江湖无疑。每个人功力都很深,可邪门的是,美俄还合作。他俩经常联手,一起组队打competition,所到之处,无不披靡。

 

顶尖大神怎么赢?有人研究过,他们关键时刻会用组合武器,在细节上胜出。

 

这个数字江湖里有世界上最好的数据科学家。在kaggle上闯荡后,回头看自己公司内部的data scenientist,才知道他们有多low。

 

虚拟江湖远远胜过现实。这让我怀疑一些根深蒂固的观念。什么时候都别忘记去江湖上走走,世界很大,个人很小。