检索 和 GPT,一些粗浅体验

所有app的对外接口基本上是两个,输入和输出。两个都很重要。

早期的search engine 非常多,多如牛毛。很多人的钱都砸里面了。几乎所有的 都是按照 关键词进行检索的,通过在数据库中 调用 Full Text Search 找到结果,输出给用户。包括后起之秀 Google。

Google胜出的几个原因,、

一是输出排序用了PageRank,这是Larry Page模仿科学文献中的 Impact factor搞的,

二是Google对输入关键词的选择,是Google成功的另一大关键,Google把英文词分为三类,1)常用词,比如 the, to, in, 等等;2)中度流行词;3)偏僻词 少用词。Google检索基本上忽略常用词,而是以 中度流行词为主进行检索,偏僻词稍作些许参考。哪些词是检索词,是Google的秘密。

三是用了Nosql数据库,发明了自己的document database, 极大的提高了速度。

我当时最喜欢的 search engine 是 AllTheWeb,它的独特之处是给你很多的输入栏,可以对 title 定 检索词,对 url 定检索词,对内容定 检索词,对 meta 定 检索词,等等,然后它在对应的数据库的 Column 里面查询,所以给出的结果 不仅快,而且非常准,原因是输入非常准,直接针对每个 column。但是广大的劳动人民不喜欢,大概嫌烦,劳动人民不爱劳动。

Google成功后,也最早希望能够 通过人工智能进行 NLP natual language processing 来解读 输入。当然,可能WolframAlpha 更早就解读 问句来回答问题。但是 WolframAlpha 没有成功,尽管我很喜欢它。它在解读输入上相当成功,但是他的基本理念还是从数据库从得到万无一失的正确答案给用户,所以没有得到劳动人民的垂青。

Google放弃了 RNN (recurrent neural networks),终于在 2017年 静悄悄的 完成了一项壮举,那就是 language model Transformer. 这是 革命性的一步,现在所有的先进 language model 都是用 Transformer!比如

  • OpenAI 的 GPT-3, (chatGPT) 是 Generative Pretrained Transformer 的缩写
  • Google 的 BERT,是 Bidirectional Encoder Representations from Transformer 的缩写
  • 微软的 CTRL,是  Conditional TRansformer Language 的缩写
  • Facebook 的,RoBERTa ,是 Robustly Optimized BERT Transformer Approach的缩写
  • 华为的 Hi-Transformer
  • 等等

遗憾的是,由于Google是个好面子的大公司,不能轻易的推出不成熟的东西 以及不安全的东西。所以 Google的训练数据搞的太大,好像是 OpenAI 的几十倍,而且安全性也搞得过于复杂。要知道,模型训练是非常昂贵的,所以 臃肿迟缓的Google BERT 被 GPT 捷足先登。

总结一下,检索输入,从 分类 Column 检索 (All The web)到 关键词 (Google),到 NLP Language model (Transformer)应该是趋势,Google 是否还能保住检索的市场,关键在于 BERT 能不能取胜

所有跟帖: 

想起以前我被大家抨击的一个判断:大学CS比工业界落后太多。这次又被印证了 -兄贵- 给 兄贵 发送悄悄话 兄贵 的博客首页 (0 bytes) () 02/10/2023 postreply 20:27:20

这种heuristic based 技术可能工业界更有实力来开发吧 -tennisluv- 给 tennisluv 发送悄悄话 (0 bytes) () 02/10/2023 postreply 20:32:10

能进那几个最好ai lab的人基本也能拿到大学教职,工业界数据和计算资源比学校更多 -风景线2- 给 风景线2 发送悄悄话 (0 bytes) () 02/10/2023 postreply 20:44:15

是的,训练数据,起码要 5 80GB GPU。大学没这实力 -兄贵- 给 兄贵 发送悄悄话 兄贵 的博客首页 (0 bytes) () 02/10/2023 postreply 20:56:26

Transformer 是处理语言的模型。句子比词 表达的更完整。 -兄贵- 给 兄贵 发送悄悄话 兄贵 的博客首页 (0 bytes) () 02/10/2023 postreply 20:34:21

哈哈,你是理工娃。要照顾广大文科娃 -兄贵- 给 兄贵 发送悄悄话 兄贵 的博客首页 (0 bytes) () 02/10/2023 postreply 20:38:40

还有,句子可以对话。仅仅关键词如何对话呢? -兄贵- 给 兄贵 发送悄悄话 兄贵 的博客首页 (0 bytes) () 02/10/2023 postreply 20:46:17

在子坛,你是对话高手,集睿智和幽默于一身,常常画龙点睛啊 -兄贵- 给 兄贵 发送悄悄话 兄贵 的博客首页 (0 bytes) () 02/10/2023 postreply 20:52:16

Transformer之前是用RNN(recurrent structure). 而 T用自我attention -兄贵- 给 兄贵 发送悄悄话 兄贵 的博客首页 (0 bytes) () 02/10/2023 postreply 20:37:43

可以 -兄贵- 给 兄贵 发送悄悄话 兄贵 的博客首页 (0 bytes) () 02/10/2023 postreply 20:46:40

是的。这就是区别所在! -兄贵- 给 兄贵 发送悄悄话 兄贵 的博客首页 (0 bytes) () 02/10/2023 postreply 20:50:49

Transformer的缺点是计算量和建模长度平方级增长,所以各家有很大空间提高改善,看来GPT找到秘籍,谷歌如果还停留 -dujyy262- 给 dujyy262 发送悄悄话 (86 bytes) () 02/10/2023 postreply 21:07:39

当然有很多,各家的秘籍,不外泄。例如差的只能处理短句,好的一本书的长度都可以,空间也是各有各法,谷歌未必有 -dujyy262- 给 dujyy262 发送悄悄话 (24 bytes) () 02/10/2023 postreply 21:15:21

LOL,劳动人民不爱劳动 -zaocha2002- 给 zaocha2002 发送悄悄话 (0 bytes) () 02/10/2023 postreply 23:13:37

输入检索词的是用户,谷歌不能靠这个提高准确度,谷歌搜索也并不是技术问题,而是商业模式问题,准确度下降是因为广告业务 -tibuko- 给 tibuko 发送悄悄话 tibuko 的博客首页 (520 bytes) () 02/11/2023 postreply 07:07:22

msft said Bing/ChatGPT will give out the where source from? -michaelusa2- 给 michaelusa2 发送悄悄话 (343 bytes) () 02/11/2023 postreply 19:40:50

厉害!这个分析够专业:+1: 垒码的码农吧? -民兵1472- 给 民兵1472 发送悄悄话 (1256 bytes) () 02/13/2023 postreply 22:57:03

厉害!这个分析够专业:+1: 垒码的码农吧? -民兵1472- 给 民兵1472 发送悄悄话 (1256 bytes) () 02/13/2023 postreply 22:57:57

请您先登陆,再发跟帖!