检索和 GPT，一些粗浅体验

来源: 兄贵于 2023-02-10 20:17:15 [档案] [博客] [旧帖] [给我悄悄话] 阅读数 : (3576 bytes)

所有app的对外接口基本上是两个，输入和输出。两个都很重要。

早期的search engine 非常多，多如牛毛。很多人的钱都砸里面了。几乎所有的都是按照关键词进行检索的，通过在数据库中调用 Full Text Search 找到结果，输出给用户。包括后起之秀 Google。

Google胜出的几个原因，、

一是输出排序用了PageRank，这是Larry Page模仿科学文献中的 Impact factor搞的，

二是Google对输入关键词的选择，是Google成功的另一大关键，Google把英文词分为三类，1）常用词，比如 the, to, in, 等等；2）中度流行词；3）偏僻词少用词。Google检索基本上忽略常用词，而是以中度流行词为主进行检索，偏僻词稍作些许参考。哪些词是检索词，是Google的秘密。

三是用了Nosql数据库，发明了自己的document database, 极大的提高了速度。

我当时最喜欢的 search engine 是 AllTheWeb，它的独特之处是给你很多的输入栏，可以对 title 定检索词，对 url 定检索词，对内容定检索词，对 meta 定检索词，等等，然后它在对应的数据库的 Column 里面查询，所以给出的结果不仅快，而且非常准，原因是输入非常准，直接针对每个 column。但是广大的劳动人民不喜欢，大概嫌烦，劳动人民不爱劳动。

Google成功后，也最早希望能够通过人工智能进行 NLP natual language processing 来解读输入。当然，可能WolframAlpha 更早就解读问句来回答问题。但是 WolframAlpha 没有成功，尽管我很喜欢它。它在解读输入上相当成功，但是他的基本理念还是从数据库从得到万无一失的正确答案给用户，所以没有得到劳动人民的垂青。

Google放弃了 RNN （recurrent neural networks），终于在 2017年静悄悄的完成了一项壮举，那就是 language model Transformer. 这是革命性的一步，现在所有的先进 language model 都是用 Transformer！比如

OpenAI 的 GPT-3，（chatGPT) 是 Generative Pretrained Transformer 的缩写
Google 的 BERT，是 Bidirectional Encoder Representations from Transformer 的缩写
微软的 CTRL，是 Conditional TRansformer Language 的缩写
Facebook 的，RoBERTa ，是 Robustly Optimized BERT Transformer Approach的缩写
华为的 Hi-Transformer
等等

遗憾的是，由于Google是个好面子的大公司，不能轻易的推出不成熟的东西以及不安全的东西。所以 Google的训练数据搞的太大，好像是 OpenAI 的几十倍，而且安全性也搞得过于复杂。要知道，模型训练是非常昂贵的，所以臃肿迟缓的Google BERT 被 GPT 捷足先登。

总结一下，检索输入，从分类 Column 检索（All The web）到关键词（Google），到 NLP Language model （Transformer）应该是趋势，Google 是否还能保住检索的市场，关键在于 BERT 能不能取胜

您的位置：文学城 » 论坛 » 子女教育 » 检索和 GPT，一些粗浅体验

所有跟帖：

• 想起以前我被大家抨击的一个判断：大学CS比工业界落后太多。这次又被印证了 -兄贵- ♂ (0 bytes) () 02/10/2023 postreply 20:27:20

• 这种heuristic based 技术可能工业界更有实力来开发吧 -tennisluv- ♂ (0 bytes) () 02/10/2023 postreply 20:32:10

• 能进那几个最好ai lab的人基本也能拿到大学教职，工业界数据和计算资源比学校更多 -风景线2- ♀ (0 bytes) () 02/10/2023 postreply 20:44:15

• 是的，训练数据，起码要 5 80GB GPU。大学没这实力 -兄贵- ♂ (0 bytes) () 02/10/2023 postreply 20:56:26

• Transformer 是处理语言的模型。句子比词表达的更完整。 -兄贵- ♂ (0 bytes) () 02/10/2023 postreply 20:34:21

• 哈哈，你是理工娃。要照顾广大文科娃 -兄贵- ♂ (0 bytes) () 02/10/2023 postreply 20:38:40

• 还有，句子可以对话。仅仅关键词如何对话呢？ -兄贵- ♂ (0 bytes) () 02/10/2023 postreply 20:46:17

• 在子坛，你是对话高手，集睿智和幽默于一身，常常画龙点睛啊 -兄贵- ♂ (0 bytes) () 02/10/2023 postreply 20:52:16

• Transformer之前是用RNN(recurrent structure). 而 T用自我attention -兄贵- ♂ (0 bytes) () 02/10/2023 postreply 20:37:43

• 可以 -兄贵- ♂ (0 bytes) () 02/10/2023 postreply 20:46:40

• 是的。这就是区别所在！ -兄贵- ♂ (0 bytes) () 02/10/2023 postreply 20:50:49

• Transformer的缺点是计算量和建模长度平方级增长，所以各家有很大空间提高改善，看来GPT找到秘籍，谷歌如果还停留 -dujyy262- ♂ (86 bytes) () 02/10/2023 postreply 21:07:39

• 当然有很多，各家的秘籍，不外泄。例如差的只能处理短句，好的一本书的长度都可以，空间也是各有各法，谷歌未必有 -dujyy262- ♂ (24 bytes) () 02/10/2023 postreply 21:15:21

• LOL，劳动人民不爱劳动 -zaocha2002- ♀ (0 bytes) () 02/10/2023 postreply 23:13:37

• 输入检索词的是用户，谷歌不能靠这个提高准确度，谷歌搜索也并不是技术问题，而是商业模式问题，准确度下降是因为广告业务 -tibuko- ♂ (520 bytes) () 02/11/2023 postreply 07:07:22

• msft said Bing/ChatGPT will give out the where source from? -michaelusa2- ♂ (343 bytes) () 02/11/2023 postreply 19:40:50

• 厉害！这个分析够专业:+1: 垒码的码农吧？ -民兵1472- ♂ (1256 bytes) () 02/13/2023 postreply 22:57:03

• 厉害！这个分析够专业:+1: 垒码的码农吧？ -民兵1472- ♂ (1256 bytes) () 02/13/2023 postreply 22:57:57

请您先登陆，再发跟帖！

检索 和 GPT，一些粗浅体验

所有跟帖：

检索和 GPT，一些粗浅体验