AI之我猜
AI之我猜
楊道還 12/29/2025
兩年前,AI之風乍起時,寫了幾篇AI之看笑話。(注1)現在AI大行,假日有空,就又起興,要研究一下這個AI的算法。
看來看去,發現AI的核心部件,叫做什麼transformer,舊譯變壓器。變壓器有點兒過於具體,大概譯為變形器更適用AI的用途。網上很多文章專門給AI外行和頭腦簡單的人解釋transformer的原理,題目都起得對我很具吸引力。但我東瞅西看,也看不出個所以然——如果其中有其然的話。
這些文章雖然看不懂,但仍有啟示作用。看完之後,我就開猜:我知道的一個戲法,也能AI。
這個戲法,是一個用生物醫學的錢,做物理實驗的數學專業的傢伙講給我的。這個主意,不是他想到的,但他分得了一杯羹,是深諳門道的先得利益者。
這個主意類似於滴血驗病:用一滴血,分析一下,就能檢查出幾十種疾病的有無。但這個主意更簡單:只需一點點唾液,用激光脈衝轟一下,就可以得知該人是否有某種癌症。
這個方法很科學。預先把已知得了某種癌的人的唾液樣本,用激光打稀爛,將各種碎片,按質量和電荷量逐一記錄下來。癌細胞生產的蛋白質必有不同。從大量記錄得來的統計數據中,大多數碎片不重要,需剔掉;將重要的、能表徵病症的部分留下來,這部分稱為某種癌症的指紋。然後同法炮製需檢測者的唾液,對比其指紋處碎片分佈。如果對不上指紋,就算是健康人。如果指紋有類似,那麼得了這種癌症的機率很大,可以繼續其它方法檢查,這就有助於將醫療資源用在刀刃上。
據這個數學家講,區分病人和健康人的數據的算法很重要,如果找到成功率超過一半的指紋,就算成功;如果達到8成,他就發達啦。指紋對上了,自有對症的治療接上。
自然語言中的一句話,也是可以轟成碎片的,各種碎片也是可以記錄的。只要找到以前字典或文獻中的有同樣文字的類似句子,轟成碎片,統計並算法出來個指紋,就能對比指紋。指紋對上了,機器就能接上話茬,就像「讀懂」了這句話。
病有很多種,自然語言的話也很多,所以指紋數目巨大,但只要有錢有時間,找到所有指紋是可能的。這之後,轟一次樣品,要與所有指紋對照。算力跟上了,這些都不成問題,自有機器處理。自然語言的碎片大概還沒有蛋白質的多。
這樣一種語言翻譯成另一種,就很簡單了。雙方的指紋,有很多已知對得上的,直接對上,其餘根據統計、語法規則、或手工微調,就八九不離十地對上了,漏網之魚,未必有人能釣得到。
我嚴重懷疑transformer就是類似的辦法,但精細和高大上玄很多。已知了一種語言的各種各樣的指紋,以及其相互連接的關係,作成一個多維的點陣地圖。當用的時候,把一句話或一篇文章用同樣方法打碎,然後到點陣地圖中尋找最相似的點陣,從那裡再蔓延到附近、上下游的點陣,作為輸出。這個輸出用統計方法提煉,提煉結果再用語法規則或手工規則修正一下,哇啦,就出來自然語言的回答了。這種辦法,最適用於封閉系統,系統中理性和邏輯硬連接越多,就越準確。顯然,對那些陷在信息繭房的理性主義者來說,AI就像個上帝。現代的AI愛世人,理性主義者一思考,AI不發笑,而是誇獎加補充。
顯然,這樣一個多維的點陣,有疏有密,點陣成群出現。點越密處,也就準確度越高。但巧妙犧牲一下稀疏部分,算得快,只犧牲極小的準確性,總體來說表現也差不太多。這就是所謂的蒸餾。
顯然,可以參照八股文的辦法,將結果程序化。八股文分為破题、承题、起讲、提比(或起股)、中股、后股、束股、大结。破题即是打碎。承題即是找到了指紋。先介紹指紋在點陣中位置即是提比。中股作分析,聯繫到上游和下游點陣群,講個一二三四。後股是那些不能概括到一二三四的不規則內容、反對意見、比喻類比等等。最後有個結語,是所有涉及到的點陣作為整體的一個大指紋。這就作出文章了。國人反對八股,寫出來的文章在形式上就沒個體統,站沒站相,坐沒坐相,往往不如AI,可想而知。
顯然,這會出錯。使用者發現輸出跑題了,不對,給其提醒。這時就哈哈哈,重複以上,即便與上一個回答衝突,也毫無心理負擔,用另一套指紋,還是一大篇。此外還新學到了一個規則,可以備用。但是,這也有優點,使用者問的問題不靠譜,問非所問,也沒關係,本來指紋就是大概齊,可以從大概齊開始,回答卻中規中矩。使用者就學到了一個規則。
顯然,這裡面一個字是什麼意思,沒有任何內在定義,只有與別的字互相間關係:外部連接和關聯。這對破解字的意義失傳的語言文本,會有很大用處。但字和意相離,只能用手動把兩者系到一塊,否則就跟字義失傳的文本差不多。
那麼這樣的一個點陣,會有新主意嗎?可以。以前有人提出了隨機打字機的概念,就是一個打印機隨機地打字母和字符,打個無窮盡,最後打印出來的,一定有任何著作,要莎士比亞有莎士比亞,要愛因斯坦有愛因斯坦。這個打印機是「智慧」之源泉,但也是謬誤之噴泉:莎士比亞的著作有一篇,差了個詞的有無數篇。現在有了點陣的過濾,可以大幅降低謬誤部分。這就像有人拿來AI寫古詩,原來不像話,沒法看;現在過濾了一下,就偶然會蹦出來一篇像那麼回事的。也就是說,餿主意中有可以新意。此外,為了形式,硬派個連接到不相干的點陣去,也可以蠻有新意的。
不知道這個數學家發達了沒有。但十多年後,我得知,有人靠專門給人轟唾液或什麼其他亂七八糟東西並提供記錄,發達了。遙祝他新年好運。
也祝大家新年好運。
注
1
詳見https://daohuanblog.wordpress.com/2023/06/08/
https://vocus.cc/article/63e8e715fd897800014e1196
