GPT能够识别英语里边的每个词。它采用空间词义法。一个词的意义,是由它在词义空间里的位置决定的。说的白一点,经常出现在一起的两个词,比如毛泽东与中国,紫檀与50万等等,放在一起,他们词义空间里边的距离近。不经常出现在一起的两个词,比如毛泽东与法国巴黎,牛顿与杜甫等等,他们在词义空间的距离就非常远。通过AI机器学习,英语的每一个词都在英语的词义空间里占有一席之地。所以当GPT使用者输入一个单词,或者一个句子时,GPT可以接龙,依靠输入这个词的词义空间,找到距离自己最近的那个词,那个词就是它的接龙的下一个词。如此循环往复,直到一篇文章完成(具体的比较复杂,这里严重简化)。
从中可以看出,GPT 本身是完全不了解,不懂每一个词的意思的。一篇文章的每个句子,每个段落里的那些词,之所以组合在一起,完全是依靠词义空间来决定的。值得注意的是,GPT 也不清楚不了解不懂它写出文章的每句话每个段落之间的语法。
一句话,现在GPT 生成出来的东西,看似非常精准,非常的人话,非常的语法,内容非常的可信服,但其实它完全不知道自己在说什么。道理很简单,因为它生成这些东西的唯一的依据是词义空间。
这导致了GPT生成的答案,每次都可能不一样。
很显然,AGI 仅仅依靠词义空间是不够的。GPT生成的东西,必须要有逻辑,而且这种逻辑还必须是可控的。
一个很显然的结论是,现在AI,比如GPT除了词义空间的算法,必须也要“逻辑空间”的算法。两者缺一不可。
"逻辑空间"算法如何搞,现在没有定论。
山姆奥特曼这些蔑视数学,蔑视物理等等AI 红脖子门(绝大部分的西洋人都属于这类),他们推崇简单粗暴的算力。他们想如法炮制”词义空间“,通过机器学习,通过大量的文本训练,找出每个民族,每个学科等等的“逻辑空间”。
华人喜欢数学,喜欢物理,喜欢硬核。他们觉得词义空间走暴力运算行得通。但是,“逻辑空间”不太可能通过简单的GPU 堆叠就能实现。他们更加倾向于,每一个学科,每一个专业,每一个行业,组织大量的专家学者研究生本科生,人工标志高水平的本学科,本行业的”逻辑空间“。
词义空间法不是新东西。50年代的语言学家其实就做过这些事。比如他们通过分析一个民族语言里的,比如水稻的词义空间数量的大小多寡,能得出一个民族是水稻民族,还事畜牧民族。语言学家,社会学家,民族学家等等一直这么做,一直证明行得通。只不过以前的GPU 算力不行,没人敢想到穷尽一个语言的全部词汇建立词义空间的地步。
逻辑空间算法以前也有人做。最著名的就是乔姆斯基的生成语法。事实证明,乔姆斯基的万能语法,生成语法等等是失败的。逻辑空间算法的突破,不是那么容易的。