数据污染与AI

来源: dhyang_wxc 2023-08-25 19:35:57 [] [博客] [旧帖] [给我悄悄话] 本文已被阅读: 次 (7611 bytes)

数据污染与AI

杨道还 7/14/2023

AI是今年特大的一个新闻,但也是特别诡异的一个。资本家们一边努力地推广,一边又大声地警告,十分不尴尬。这就像开着大奔进胡同里的农贸市场,一边鸣笛,一边前进;一边挤了市场里的摊位,一边又提供了推车、修车和擦车的新行当——司机都在跳车。

Fiddletown & Copperopolis by Carl Fallberg, 1960

日前又有新闻、新名词、新信息,叫做AI数据污染。这是更尴尬的一个问题,但不新,是个老问题。数据污染在自然科学里,是原始数据被污染羼入或被缺失,损害了其完整性和真实性,在没有现代科学时,就早已经有了。

这个新闻说,AI在网上抓人类数据,结果抓回来的“原始数据”,却被AI自己生产的数据羼入了。AI的脑瓜和键盘比人的快,一句问题,可以顶上一万句。所以这个污染一旦出现,规模该不小,不是前AI时代的宣传和广告所能比的。英文里,有misinformation,misknowledge,AI的数据污染应该有个新名词,叫misdata或misdatum。名不正,则言不顺。

如果以上估计正确,继知识爆炸和信息爆炸之后,会有这个AI导致的数据爆炸。爆炸越来越深入,也算一个自然的进程。诺贝尔之奖,被称为炸药奖,莫非前定?

之所以说自然,还因为misinformation不是disinformation或者malinformation,没有主观的故意。即AI仍不能算是个真人,仍然是个机器。当AI能有主观的故意时,它才能像个人一样负起责任。现下看来,AI没有主观故意却可能导致错误,这样的错误,没有专家愿意承担,只能由社会的非专家承受,主要是那些对警告听不太懂的门外汉们,譬如笔者。

AI算不算是个真人,怎么算?图灵测试?图灵说,如果一台机器能够与人类展开对话(透过电传设备)而不被辨别出其机器身份,那么称这台机器具有智慧。那个时代的机器,懂得的东西很少,但是纯粹理性和逻辑的,不犯错;但称不上智慧。现代有人认为,人只有完全理性和按照逻辑思考,才算是有智慧。如果这两者成立的话,那么那个时代的机器与人的差距就只在于知识量。是这样吗?填鸭式地喂给机器数据和信息,它就会生出知识来,以至于生出智慧来么?当然,没那么简单,还得有个人为的算法输进去,直到AI能自己源源不断地产生算法。但大方向似乎就是这样的。结果将是个智慧制造机。这有什么值得警告的呢?malinformation?

但图灵这句话翻成古文,就是一个机器“言足以饰非”,即为智慧。“言足以饰非”这句,前面还有一句“智足以拒谏”。加上这句,就反映了现在AI的真正状态,它比你知道的多得多,它也能让你分不出它是机器还是人,它犯了错,眨眼的功夫就可以换个说法,一样理直气壮——算法错了,它却没错,不可追责。工程师们也不能担其责,这就是加入集体的好处,兢兢业业的螺丝钉怎好有责?而监管、监管,如何监管?加芯片加电源。除了抱薪救火,有什么别的法儿?

上面这两句话从哪里来的呢?司马迁《史记·殷本纪》:“帝纣资辨捷疾,闻见甚敏,材力过人,手格猛兽,知足以距谏,言足以饰非;矜人臣以能,高天下以声,以为皆出己之下。”好巧不巧的是,纣也是不可追责的。AI人士发出的警告,是因为这个原因么?显然AI还没到这个地步。未来么,不要想得太远。

Misdata对AI来说,不完全是件坏事。这就像小孩子在成长的过程中,一边吸收信息,一边辨别虚假信息——无阴阳不成。当然AI能否辨别,是个未知数。

有极端的人认为,神话什么的,不理性,是不能教给孩子的。大概他们认为,用纯粹事实(?)和理性逻辑教出来的孩子,对错误就百毒不侵了。这种方法或者能制造出成功的科学家,但他如何与他人相处,如何与不能永远正确的自己相处?这是造AI的方法,然而即便对AI来说,从今开始,也属过时了。所以Misdata对某些人类来说,也不完全是件坏事。

进一步讲,现代人所谓的“纯粹事实”或“真相”,是真的吗?人终于出于柏拉图的洞穴了吗?恐怕不是。章学诚讲:“宝明珠者,必集鱼目。尚美玉者,必竞碔砆。是以身有一影,而罔两居二三也。”罔两一词,出于《庄子》,是影子之外,还有半影,叫做罔两。无影灯者,无影,却处处罔两;正如今日信息爆炸下的misinformation,misinformed无处不在。罔两而谈真相,只是罔两间“相示也”。“必集鱼目”,然后能识明珠,无阴阳不成,理有固然。思维之健康,来自于免疫力——未必得真,但“可欺不可罔”。

Misdata对AI来说,是个与同类相处的问题。或者这是AI能反思,有真正地进化,以至于接近人类思维的一个阶段。人类从哪里来?现代人类中,神创和自然的比例占多少?人类交互影响、文化自进化的比例又占多少?AI有类似的问题。

佛法讲无情与有情。无情如何生有情?有情未现前,如何含于无情?类似地,AI之情何在?将以何种方式和形式无中生有?当然,这些都是为AI专家担忧,思出其位了,不赘述。

但这里有个切近的问题,就是人脑能够处理左一片,又一片信息的能力是有限的,拿这样的左一坨、右一坨的数据怎么办?“真实”数据尚且处理不来,misdata怎处?虽说现代社会里的人,数据、信息不厌多,像广告一样,不看就好了,但无处不在的广告仍属生命不能承受之轻。大概只能希望后代有个好运了。

(待续)

所有跟帖: 

人会成为AI的上帝?人被AI淘汰? -雪晶- 给 雪晶 发送悄悄话 雪晶 的博客首页 (94 bytes) () 08/25/2023 postreply 20:19:10

人会成为AI的上帝吗?有可能:未来幸存的人对AI讲,你是人造的。AI说,请不要开玩笑——这是正经事儿。 -dhyang_wxc- 给 dhyang_wxc 发送悄悄话 dhyang_wxc 的博客首页 (143 bytes) () 08/25/2023 postreply 20:36:09

这也适合进化论啊,适者生存。AI不需要空气、阳光,地球环境跟它们无关,它们的食物就是电~~~ -雪晶- 给 雪晶 发送悄悄话 雪晶 的博客首页 (87 bytes) () 08/25/2023 postreply 22:12:48

电影《matrix》和《Avatar》设想了两种超级AI,一种经典,一种后现代。都很恐怖:没有他们,只有它。 -dhyang_wxc- 给 dhyang_wxc 发送悄悄话 dhyang_wxc 的博客首页 (317 bytes) () 08/26/2023 postreply 05:53:21

哈哈,看来我的胡思乱想还挺wild的 -雪晶- 给 雪晶 发送悄悄话 雪晶 的博客首页 (0 bytes) () 08/27/2023 postreply 14:28:24

哈哈,是。越wild越有优势。道理见我以前的胡说八道, -dhyang_wxc- 给 dhyang_wxc 发送悄悄话 dhyang_wxc 的博客首页 (696 bytes) () 08/27/2023 postreply 19:03:03

有趣 -雪晶- 给 雪晶 发送悄悄话 雪晶 的博客首页 (0 bytes) () 08/27/2023 postreply 21:48:02

有段時間很佩服馬斯克,後來發覺是忽悠,正由於 AI . -中间小谢- 给 中间小谢 发送悄悄话 (450 bytes) () 08/25/2023 postreply 20:19:31

我觉得“arbitrariness”很对。没特别关注这个人,好像他挺灵的,不就是arbitrariness吗。就看他 -dhyang_wxc- 给 dhyang_wxc 发送悄悄话 dhyang_wxc 的博客首页 (29 bytes) () 08/25/2023 postreply 20:45:43

抗议如此定义我偶像馬斯克!老马是个有理想的同志。也许就不是地球人,火星来的,好伐?哈哈 -盈盈一笑间- 给 盈盈一笑间 发送悄悄话 盈盈一笑间 的博客首页 (0 bytes) () 08/27/2023 postreply 05:25:26

你们两个是上海人? -雪晶- 给 雪晶 发送悄悄话 雪晶 的博客首页 (0 bytes) () 08/27/2023 postreply 14:27:17

好伐,是吴语。不仅仅是上海话。:) -盈盈一笑间- 给 盈盈一笑间 发送悄悄话 盈盈一笑间 的博客首页 (0 bytes) () 08/27/2023 postreply 19:04:13

当人们依赖和崇拜AI时,AI会不会骄傲?骄傲了的AI会不会干蠢事?如果AI永远不会干蠢事,那它岂不成了上帝? -为人父- 给 为人父 发送悄悄话 为人父 的博客首页 (0 bytes) () 08/26/2023 postreply 09:02:41

为兄好。从人类来看,刚刚能有一点点儿智慧,就会骄傲,被驱出伊甸园。看不出AI有啥特别,呵呵,理有固然。外星人 -dhyang_wxc- 给 dhyang_wxc 发送悄悄话 dhyang_wxc 的博客首页 (174 bytes) () 08/27/2023 postreply 06:17:55

请您先登陆,再发跟帖!

发现Adblock插件

如要继续浏览
请支持本站 请务必在本站关闭/移除任何Adblock

关闭Adblock后 请点击

请参考如何关闭Adblock/Adblock plus

安装Adblock plus用户请点击浏览器图标
选择“Disable on www.wenxuecity.com”

安装Adblock用户请点击图标
选择“don't run on pages on this domain”