原作:佚名/日本网友
编译:StarKnight
这个故事并非什么能把人吓到屁滚尿流的恐怖鬼故事,只不过偶尔回想,还是令人脊背发凉,所以不妨写下,供诸君一阅。
已经是好几年前的事了。当时,我是一家企业的研究团队的一员。
说是研究员,但并非穿着白大褂、调试各种药剂的那种研究——我们做的是基于监控录像的人脸识别系统,及其相关应用。
比方说,在电脑主机上搭建一个程序,然后向它输入大量的监控摄像头数据,最终,程序通过人脸识别,输出诸如「ID:0001 ,通过点:X→Y→Z」这样的记录(log)。
当然,这种程度的功能,市面上已经多得很了,我们要做的是,尝试在此基础上,逐渐追加各种功能,看能不能获得什么意外成果。
最先开发的是「年龄判断」功能——大概不少人听说过。
基本原理和天气预报差不多:预先在系统内存储数千组人脸/年龄的数据,当摄像头读取到动态的人脸时,基于预存的数据,给出一个预想值。
这个方法不算复杂,但精度却不低。在试验阶段,就能猜中40%左右,其余的误差保持在±8岁之内,很有意思。
但若仅是「年龄判断」功能,也已经有不少地方在做,于是我们继续努力,想做出一点更加独特的功能来。
幸好,我们研究室手头有不少原始资料,包括人物的照片,名字,年龄,籍贯和学历,等等,可供我们做各种试验。
猜名字的功能我们放弃了。那么离散的数值让电脑来猜,委实有点困难。
令人惊讶的是,「看人脸猜学历」(学历分为四档:初中/高中/普通大学/一流大学毕业)竟然有高达60%的准确率。
「看人脸猜籍贯」(让电脑将冲绳-北海道作为一个连续的值来判断),则有将近10%的准确率。
——可能有人会想:「什么啊,才10%而已?」但这其实是个很了不得的比率。
让人看脸猜年龄,准确度也许超过电脑,但光看脸猜别人的籍贯,10次中未必能中1次。
总之,这里想说的是,只要给予电脑足够多的样本,程序的推算精度还真的不容小觑。
闲话少叙,书归正传。
当时,正是《死亡笔记》正流行的时候。可能是受了这部作品的影响,我们团队里一个喜欢异想天开的「疯狂科学家」(姑且称他为A吧),提议说:「我们来做做看寿命预测吧」。
显然,我们手头的照片资料内,是不可能有「剩余寿命:XX年」这一栏的。
A说:「我们可以用历史人物的照片。有些是黑白的,应该不会对识别精度有太大影响,没关系的。」
确实,黑白照片的识别精度虽没有彩照来得高,但对人脸识别程序的影响不会太大。
「不过,光用历史人物照片,样本数恐怕不够吧?」
「不一定非要是名人,只要有大头照,摄影年份+死期就可以了啊,所以天灾或者事故的死者也可以拿来用的。」
「等等……那岂不是会混进去很多因为外部原因而死的样本?」
「没关系,要的就是这个效果!」A笑眯眯地说。
——原来这家伙想要的效果,不是「通过对象面貌,推定其健康程度,进而预测其寿命……」而是想让电脑完成摆摊算卦的相面先生的工作。
我对于拿死人的数据来做样本这事儿,多少有点抵触,但那时大家都是好奇心旺盛的年轻人,于是马上就动手开始做了。
每天一点一点地将照片、死亡年份-照片拍摄年份(=剩余寿命)的数据录入电脑,过了几个礼拜,样本数达到了2000多个。
于是,我们进入了实验阶段。说是实验,但因为不知道正确答案是多少,谁也没法验证其是否真的准。
第一个实验对象是我。大家启动了系统,让我站在摄像头面前。
很快,摄像头找准了我的面部,隔了几秒,系统画面上弹出了一个答案:
余命:60。
嗯,现在日本男性的平均寿命大概是80来岁,这个答案也不算那么离谱嘛。
(忘记说了。我们团队里的成员都是二十来岁,只有组长三十挂零)。
接着,其他组员也都拍了照,得出了各种结果。
可能是因为样本数还是不够多,答案差异非常之大:
23、112、75、42……有些实在太离奇了。
其中最刺激的结果是A,他的测算结果是「0」。
看起来,实验是失败了。让电脑做算命先生的活,还是力不从心。
不过那2000多个样本是大家辛辛苦苦手动录入的,自然要看看能不能在别的地方派点用场。
于是,我们将程序调整到log记录模式,然后将公司服务器上保存着的各种监控录像数据导了进去。
数据导入花了一整晚。第二天,电脑输出了数千个辨识log。
我们将log数据作了一番统计处理,发现了一些有趣的现象:
随监控场所的不同,余命的数据差别也非常之大。
比如说,小学的场景,电脑推算出的登场人物余命均值是「106」。
这个数字远远超过全部记录的均值「46」。
相反,低于该均值的数据来源,则是高速公路的服务区监控录像:平均值为「38」。
这是不是说明,开车或坐车的人,早死的风险比较大?
按照由多到少的顺序往下翻,倒数第二位的,是本地的一所养老院的录像,平均值为「15」。
倒数第一位呢? 如你所猜想的,是医院。平均值居然只有「4」!
等等,好像不大对啊。就算是医院的录像,平均余命只有4年也太不自然了。
比如说,住院患者中一定有因为参加体育活动受伤的少儿吧,他们的余命应该很长才对。
为了确认是不是什么地方出了差错,于是我们调取了原始数据。
一看,当时就惊着了。
原始数据的格式是这样的:
「ID:1234 VALUE:34(← 在这里,VALUE的值即为推定余命) …」
像这样一条条的数据在屏幕上排开,绵延不绝。大部分是很普通的数字,比如「34」或「50」等等。
可是,其中夹杂了几个不可能存在的数——
负数。
以防万一,我们调出医院以外的原始数据来看,发现其他场所的log里面,也有几个负数的记录,但绝对数量比医院少得多。
——如果按照字面意义来解释,即是「余命=-3年」,也就是「已经死了三年」。
——所以,医院里探得的数据,负数特别多,所以导致余命的平均值也大为下降。
……我们努力想要保持冷静,但冷汗已经把衣服湿透了。
之后,团队成员开了几次会,觉得只能得出两个结论——无论哪一个都令人丧气。
即,1)让电脑测算余命,误差太大,没有信服力;
或,2)我们的周围,有余命为负数的人在昂然阔步。
当然,最终我们采纳了第一个结论。对于整个实验,我们拟了一份报告,随便起了一个《利用人脸辨识程序调查健康状态的可能性》的名字,上交给了领导(这倒是事前就计划好了的)。
这个项目就此打上封印。
我们每天都要与数百人擦肩而过,目光交错。
谁知道其中有多少张脸,是「余命为负」的?
还有一件重要的事情忘记写了,补上。
被电脑推算出「余命为0」后不到一年,A死了。
上班高峰期,他从站台上跳下了铁轨。
电脑是怎么预测出来的?
谁也搞不懂。
我们提供给电脑的信息,只有「样本」与「测算对象的脸」而已。
可是A确如电脑宣告的那般,如期死去了。
有一个词,叫「死相」。
有些异能人士,看人的脸,就约莫能知道,「这个人快死了」。
我对超自然的事情不大感冒,但自从A死后,我开始非常害怕靠近监控摄像头与拥挤的人群。
还有,只要不是逼不得已,我也绝不靠近医院。
<完>