AI之我猜

来源: dhyang_wxc 于 2025-12-29 21:28:17 [档案] [博客] [旧帖] [给我悄悄话] 阅读数 : (6728 bytes)

AI之我猜

楊道還 12/29/2025

兩年前，AI之風乍起時，寫了幾篇AI之看笑話。（注1）現在AI大行，假日有空，就又起興，要研究一下這個AI的算法。

看來看去，發現AI的核心部件，叫做什麼transformer，舊譯變壓器。變壓器有點兒過於具體，大概譯為變形器更適用AI的用途。網上很多文章專門給AI外行和頭腦簡單的人解釋transformer的原理，題目都起得對我很具吸引力。但我東瞅西看，也看不出個所以然——如果其中有其然的話。

這些文章雖然看不懂，但仍有啟示作用。看完之後，我就開猜：我知道的一個戲法，也能AI。

這個戲法，是一個用生物醫學的錢，做物理實驗的數學專業的傢伙講給我的。這個主意，不是他想到的，但他分得了一杯羹，是深諳門道的先得利益者。

這個主意類似於滴血驗病：用一滴血，分析一下，就能檢查出幾十種疾病的有無。但這個主意更簡單：只需一點點唾液，用激光脈衝轟一下，就可以得知該人是否有某種癌症。

這個方法很科學。預先把已知得了某種癌的人的唾液樣本，用激光打稀爛，將各種碎片，按質量和電荷量逐一記錄下來。癌細胞生產的蛋白質必有不同。從大量記錄得來的統計數據中，大多數碎片不重要，需剔掉；將重要的、能表徵病症的部分留下來，這部分稱為某種癌症的指紋。然後同法炮製需檢測者的唾液，對比其指紋處碎片分佈。如果對不上指紋，就算是健康人。如果指紋有類似，那麼得了這種癌症的機率很大，可以繼續其它方法檢查，這就有助於將醫療資源用在刀刃上。

據這個數學家講，區分病人和健康人的數據的算法很重要，如果找到成功率超過一半的指紋，就算成功；如果達到8成，他就發達啦。指紋對上了，自有對症的治療接上。

自然語言中的一句話，也是可以轟成碎片的，各種碎片也是可以記錄的。只要找到以前字典或文獻中的有同樣文字的類似句子，轟成碎片，統計並算法出來個指紋，就能對比指紋。指紋對上了，機器就能接上話茬，就像「讀懂」了這句話。

病有很多種，自然語言的話也很多，所以指紋數目巨大，但只要有錢有時間，找到所有指紋是可能的。這之後，轟一次樣品，要與所有指紋對照。算力跟上了，這些都不成問題，自有機器處理。自然語言的碎片大概還沒有蛋白質的多。

這樣一種語言翻譯成另一種，就很簡單了。雙方的指紋，有很多已知對得上的，直接對上，其餘根據統計、語法規則、或手工微調，就八九不離十地對上了，漏網之魚，未必有人能釣得到。

我嚴重懷疑transformer就是類似的辦法，但精細和高大上玄很多。已知了一種語言的各種各樣的指紋，以及其相互連接的關係，作成一個多維的點陣地圖。當用的時候，把一句話或一篇文章用同樣方法打碎，然後到點陣地圖中尋找最相似的點陣，從那裡再蔓延到附近、上下游的點陣，作為輸出。這個輸出用統計方法提煉，提煉結果再用語法規則或手工規則修正一下，哇啦，就出來自然語言的回答了。這種辦法，最適用於封閉系統，系統中理性和邏輯硬連接越多，就越準確。顯然，對那些陷在信息繭房的理性主義者來說，AI就像個上帝。現代的AI愛世人，理性主義者一思考，AI不發笑，而是誇獎加補充。

顯然，這樣一個多維的點陣，有疏有密，點陣成群出現。點越密處，也就準確度越高。但巧妙犧牲一下稀疏部分，算得快，只犧牲極小的準確性，總體來說表現也差不太多。這就是所謂的蒸餾。

顯然，可以參照八股文的辦法，將結果程序化。八股文分為破题、承题、起讲、提比（或起股）、中股、后股、束股、大结。破题即是打碎。承題即是找到了指紋。先介紹指紋在點陣中位置即是提比。中股作分析，聯繫到上游和下游點陣群，講個一二三四。後股是那些不能概括到一二三四的不規則內容、反對意見、比喻類比等等。最後有個結語，是所有涉及到的點陣作為整體的一個大指紋。這就作出文章了。國人反對八股，寫出來的文章在形式上就沒個體統，站沒站相，坐沒坐相，往往不如AI，可想而知。

顯然，這會出錯。使用者發現輸出跑題了，不對，給其提醒。這時就哈哈哈，重複以上，即便與上一個回答衝突，也毫無心理負擔，用另一套指紋，還是一大篇。此外還新學到了一個規則，可以備用。但是，這也有優點，使用者問的問題不靠譜，問非所問，也沒關係，本來指紋就是大概齊，可以從大概齊開始，回答卻中規中矩。使用者就學到了一個規則。

顯然，這裡面一個字是什麼意思，沒有任何內在定義，只有與別的字互相間關係：外部連接和關聯。這對破解字的意義失傳的語言文本，會有很大用處。但字和意相離，只能用手動把兩者系到一塊，否則就跟字義失傳的文本差不多。

那麼這樣的一個點陣，會有新主意嗎？可以。以前有人提出了隨機打字機的概念，就是一個打印機隨機地打字母和字符，打個無窮盡，最後打印出來的，一定有任何著作，要莎士比亞有莎士比亞，要愛因斯坦有愛因斯坦。這個打印機是「智慧」之源泉，但也是謬誤之噴泉：莎士比亞的著作有一篇，差了個詞的有無數篇。現在有了點陣的過濾，可以大幅降低謬誤部分。這就像有人拿來AI寫古詩，原來不像話，沒法看；現在過濾了一下，就偶然會蹦出來一篇像那麼回事的。也就是說，餿主意中有可以新意。此外，為了形式，硬派個連接到不相干的點陣去，也可以蠻有新意的。

不知道這個數學家發達了沒有。但十多年後，我得知，有人靠專門給人轟唾液或什麼其他亂七八糟東西並提供記錄，發達了。遙祝他新年好運。

也祝大家新年好運。

注

詳見https://daohuanblog.wordpress.com/2023/06/08/

https://vocus.cc/article/63e8e715fd897800014e1196