一点历史，我作为一个门外汉的用户体验

来源: 兄贵于 2023-02-10 20:12:21 [档案] [博客] [旧帖] [给我悄悄话] 本文已被阅读：次 (3379 bytes)

所有app的对外接口基本上是两个，输入和输出。两个都很重要。

早期的search engine 非常多，多如牛毛。很多人的钱都砸里面了。几乎所有的都是按照关键词进行检索的，通过在数据库中调用 Full Text Search 找到结果，输出给用户。包括后起之秀 Google。

Google胜出的几个原因，、

一是输出排序用了PageRank，这是Larry Page模仿科学文献中的 Impact factor搞的，

二是Google对输入关键词的选择，是Google成功的另一大关键，Google把英文词分为三类，1）常用词，比如 the, to, in, 等等；2）中度流行词；3）偏僻词少用词。Google检索基本上忽略常用词，而是以中度流行词为主进行检索，偏僻词稍作些许参考。哪些词是检索词，是Google的秘密。

三是用了Nosql数据库，发明了自己的document database, 极大的提高了速度。

我当时最喜欢的 search engine 是 AllTheWeb，它的独特之处是给你很多的输入栏，可以对 title 定检索词，对 url 定检索词，对内容定检索词，对 meta 定检索词，等等，所以给出的结果非常准，原因是输入非常准。但是广大的劳动人民不喜欢，大概嫌烦，劳动人民不爱劳动。

Google成功后，也最早希望能够通过人工智能进行 NLP natual language processing 来解读输入。当然，可能WolframAlpha 更早就解读问句来回答问题。但是 WolframAlpha 没有成功，尽管我很喜欢它。它在解读输入上相当成功，但是他的基本理念还是从数据库从得到万无一失的正确答案给用户，所以没有得到劳动人民的垂青。

Google放弃了 RNN （recurrent neural networks），终于在 2017年静悄悄的完成了一项壮举，那就是 language model Transformer. 这是革命性的一步，现在所有的先进 language model 都是用 Transformer！比如

OpenAI 的 GPT-3，（chatGPT) 是 Generative Pretrained Transformer 的缩写
Google 的 BERT，是 Bidirectional Encoder Representations from Transformer 的缩写
微软的 CTRL，是 Conditional TRansformer Language 的缩写
Facebook 的，RoBERTa ，是 Robustly Optimized BERT Transformer Approach的缩写
华为的 Hi-Transformer
等等

遗憾的是，由于Google是个好面子的大公司，不能轻易的推出不成熟的东西以及不安全的东西。所以 Google的训练数据搞的太大，好像是 OpenAI 的几十倍，而且安全性也搞得过于复杂。要知道，模型训练是非常昂贵的，所以臃肿迟缓的Google BERT 被 GPT 捷足先登。

总结一下，检索输入，从分类 Collum 检索（All The web）到关键词（Google），到 NLP Language model （Transformer）应该是趋势，Google 是否还能保住检索的市场，关键在于 BERT 能不能取胜

您的位置：文学城 » 论坛 » 子女教育 » 一点历史，我作为一个门外汉的用户体验

请您先登陆，再发跟帖！

一点历史，我作为一个门外汉的用户体验

发现Adblock插件

如要继续浏览
请支持本站请务必在本站关闭/移除任何Adblock

请参考如何关闭Adblock/Adblock plus

安装Adblock plus用户请点击浏览器图标
选择“Disable on www.wenxuecity.com”

安装Adblock用户请点击图标
选择“don't run on pages on this domain”

一点历史，我作为一个门外汉的用户体验

发现Adblock插件

如要继续浏览 请支持本站 请务必在本站关闭/移除任何Adblock

请参考如何关闭Adblock/Adblock plus

安装Adblock plus用户请点击浏览器图标选择“Disable on www.wenxuecity.com”

安装Adblock用户请点击图标 选择“don't run on pages on this domain”

如要继续浏览
请支持本站请务必在本站关闭/移除任何Adblock

安装Adblock plus用户请点击浏览器图标
选择“Disable on www.wenxuecity.com”

安装Adblock用户请点击图标
选择“don't run on pages on this domain”