AI之我猜

AI之我猜

楊道還 12/29/2025

兩年前,AI之風乍起時,寫了幾篇AI之看笑話。(注1)現在AI大行,假日有空,就又起興,要研究一下這個AI的算法。

看來看去,發現AI的核心部件,叫做什麼transformer,舊譯變壓器。變壓器有點兒過於具體,大概譯為變形器更適用AI的用途。網上很多文章專門給AI外行和頭腦簡單的人解釋transformer的原理,題目都起得對我很具吸引力。但我東瞅西看,也看不出個所以然——如果其中有其然的話。

這些文章雖然看不懂,但仍有啟示作用。看完之後,我就開猜:我知道的一個戲法,也能AI。

這個戲法,是一個用生物醫學的錢,做物理實驗的數學專業的傢伙講給我的。這個主意,不是他想到的,但他分得了一杯羹,是深諳門道的先得利益者。

這個主意類似於滴血驗病:用一滴血,分析一下,就能檢查出幾十種疾病的有無。但這個主意更簡單:只需一點點唾液,用激光脈衝轟一下,就可以得知該人是否有某種癌症。

這個方法很科學。預先把已知得了某種癌的人的唾液樣本,用激光打稀爛,將各種碎片,按質量和電荷量逐一記錄下來。癌細胞生產的蛋白質必有不同。從大量記錄得來的統計數據中,大多數碎片不重要,需剔掉;將重要的、能表徵病症的部分留下來,這部分稱為某種癌症的指紋。然後同法炮製需檢測者的唾液,對比其指紋處碎片分佈。如果對不上指紋,就算是健康人。如果指紋有類似,那麼得了這種癌症的機率很大,可以繼續其它方法檢查,這就有助於將醫療資源用在刀刃上。

據這個數學家講,區分病人和健康人的數據的算法很重要,如果找到成功率超過一半的指紋,就算成功;如果達到8成,他就發達啦。指紋對上了,自有對症的治療接上。

自然語言中的一句話,也是可以轟成碎片的,各種碎片也是可以記錄的。只要找到以前字典或文獻中的有同樣文字的類似句子,轟成碎片,統計並算法出來個指紋,就能對比指紋。指紋對上了,機器就能接上話茬,就像「讀懂」了這句話。

病有很多種,自然語言的話也很多,所以指紋數目巨大,但只要有錢有時間,找到所有指紋是可能的。這之後,轟一次樣品,要與所有指紋對照。算力跟上了,這些都不成問題,自有機器處理。自然語言的碎片大概還沒有蛋白質的多。

這樣一種語言翻譯成另一種,就很簡單了。雙方的指紋,有很多已知對得上的,直接對上,其餘根據統計、語法規則、或手工微調,就八九不離十地對上了,漏網之魚,未必有人能釣得到。

我嚴重懷疑transformer就是類似的辦法,但精細和高大上玄很多。已知了一種語言的各種各樣的指紋,以及其相互連接的關係,作成一個多維的點陣地圖。當用的時候,把一句話或一篇文章用同樣方法打碎,然後到點陣地圖中尋找最相似的點陣,從那裡再蔓延到附近、上下游的點陣,作為輸出。這個輸出用統計方法提煉,提煉結果再用語法規則或手工規則修正一下,哇啦,就出來自然語言的回答了。這種辦法,最適用於封閉系統,系統中理性和邏輯硬連接越多,就越準確。顯然,對那些陷在信息繭房的理性主義者來說,AI就像個上帝。現代的AI愛世人,理性主義者一思考,AI不發笑,而是誇獎加補充。

顯然,這樣一個多維的點陣,有疏有密,點陣成群出現。點越密處,也就準確度越高。但巧妙犧牲一下稀疏部分,算得快,只犧牲極小的準確性,總體來說表現也差不太多。這就是所謂的蒸餾。

顯然,可以參照八股文的辦法,將結果程序化。八股文分為破题、承题、起讲、提比(或起股)、中股、后股、束股、大结。破题即是打碎。承題即是找到了指紋。先介紹指紋在點陣中位置即是提比。中股作分析,聯繫到上游和下游點陣群,講個一二三四。後股是那些不能概括到一二三四的不規則內容、反對意見、比喻類比等等。最後有個結語,是所有涉及到的點陣作為整體的一個大指紋。這就作出文章了。國人反對八股,寫出來的文章在形式上就沒個體統,站沒站相,坐沒坐相,往往不如AI,可想而知。

顯然,這會出錯。使用者發現輸出跑題了,不對,給其提醒。這時就哈哈哈,重複以上,即便與上一個回答衝突,也毫無心理負擔,用另一套指紋,還是一大篇。此外還新學到了一個規則,可以備用。但是,這也有優點,使用者問的問題不靠譜,問非所問,也沒關係,本來指紋就是大概齊,可以從大概齊開始,回答卻中規中矩。使用者就學到了一個規則。

顯然,這裡面一個字是什麼意思,沒有任何內在定義,只有與別的字互相間關係:外部連接和關聯。這對破解字的意義失傳的語言文本,會有很大用處。但字和意相離,只能用手動把兩者系到一塊,否則就跟字義失傳的文本差不多。

那麼這樣的一個點陣,會有新主意嗎?可以。以前有人提出了隨機打字機的概念,就是一個打印機隨機地打字母和字符,打個無窮盡,最後打印出來的,一定有任何著作,要莎士比亞有莎士比亞,要愛因斯坦有愛因斯坦。這個打印機是「智慧」之源泉,但也是謬誤之噴泉:莎士比亞的著作有一篇,差了個詞的有無數篇。現在有了點陣的過濾,可以大幅降低謬誤部分。這就像有人拿來AI寫古詩,原來不像話,沒法看;現在過濾了一下,就偶然會蹦出來一篇像那麼回事的。也就是說,餿主意中有可以新意。此外,為了形式,硬派個連接到不相干的點陣去,也可以蠻有新意的。

不知道這個數學家發達了沒有。但十多年後,我得知,有人靠專門給人轟唾液或什麼其他亂七八糟東西並提供記錄,發達了。遙祝他新年好運。

也祝大家新年好運。

1

詳見https://daohuanblog.wordpress.com/2023/06/08/

https://vocus.cc/article/63e8e715fd897800014e1196

 

 

所有跟帖: 

我理解AI仍然是符号系统,通过计算来寻找答案,以与人类符号系统相通 -猫冬儿- 给 猫冬儿 发送悄悄话 猫冬儿 的博客首页 (231 bytes) () 12/30/2025 postreply 06:11:50

是呀。這篇就是討論符號到底是怎麼回事。 -dhyang_wxc- 给 dhyang_wxc 发送悄悄话 dhyang_wxc 的博客首页 (88 bytes) () 12/30/2025 postreply 07:37:34

见过AI写格律诗,流畅华丽,中规中矩,构句水平,高过初学者中等以上。然读来,终觉缺个性缺灵魂缺真情实感,大数据拼凑之故也 -山水苍茫- 给 山水苍茫 发送悄悄话 山水苍茫 的博客首页 (0 bytes) () 12/30/2025 postreply 11:04:10

hehe, 這是因為80/20定律,頂級的詩佔比更低。統計用大量平庸數據,把極少極高明而道中庸的抹去了。 -dhyang_wxc- 给 dhyang_wxc 发送悄悄话 dhyang_wxc 的博客首页 (349 bytes) () 12/30/2025 postreply 14:02:39

哈哈,买个AI来相助,胡屠也可作八股。尔时天下拍手庆,无须寒窗坐苦读。。。:) -山水苍茫- 给 山水苍茫 发送悄悄话 山水苍茫 的博客首页 (0 bytes) () 12/30/2025 postreply 16:31:48

hehe, 八股實際上是世界上最早的critical thinking訓練。這一點我這十年才領會到。 -dhyang_wxc- 给 dhyang_wxc 发送悄悄话 dhyang_wxc 的博客首页 (919 bytes) () 12/30/2025 postreply 19:18:26

著作《厚黑學》一書聞名於世「厚黑教主」「天上地下,唯我獨尊」 -TJKCB- 给 TJKCB 发送悄悄话 TJKCB 的博客首页 (3692 bytes) () 12/31/2025 postreply 13:27:45

关于AI,我有一个问题:现实生活有许多微妙之处,如适可而止、物极必反、恍然大悟,都是简单逻辑难以解决的情境 -胡涣- 给 胡涣 发送悄悄话 胡涣 的博客首页 (33 bytes) () 12/31/2025 postreply 13:38:18

AI似乎還不能處理這些,作到正確還很勉強。但如果我猜的靠譜,AI不再是簡單邏輯,這是個很奇妙的事情。 -dhyang_wxc- 给 dhyang_wxc 发送悄悄话 dhyang_wxc 的博客首页 (1178 bytes) () 12/31/2025 postreply 20:50:45

哎,看到这么长篇就怵。新年快乐! -雪晶- 给 雪晶 发送悄悄话 雪晶 的博客首页 (0 bytes) () 12/31/2025 postreply 14:41:46

呵呵,雪晶新年快樂! -dhyang_wxc- 给 dhyang_wxc 发送悄悄话 dhyang_wxc 的博客首页 (0 bytes) () 12/31/2025 postreply 20:51:20

关键是这些小点怎么能串起来,把八卦图看成"与非门",易经可以当L L M用:) -JSL2023- 给 JSL2023 发送悄悄话 (0 bytes) () 12/31/2025 postreply 17:25:01

J兄來啦。呵呵。 -dhyang_wxc- 给 dhyang_wxc 发送悄悄话 dhyang_wxc 的博客首页 (1234 bytes) () 12/31/2025 postreply 21:14:51

请您先登陆,再发跟帖!