稍稍地学习了一下GPT,供有兴趣的参考。

来源: 2023-02-10 18:05:47 [博客] [旧帖] [给我悄悄话] 本文已被阅读:

要点

- GPT-3模型是通过收集2021之前45TB文本数据训练出来的。

- 这45TB文本数据不包括人类所有的知识,但以后会不断地更新。

- 语言的生成是基于45TB文本数据,即便没有答案,目前不会去互联网上收索。

- GPT-3模型拥有巨大1750亿模型参数和96个模型层数,1750亿模型参数有点类似于人类大脑的神经元(?),人类大脑的神经元100亿个。

- 模型参数决定了模型的复杂度和表示能力,而模型层数决定了模型的抽象能力和处理复杂任务的能力。

- GPT-3 使用了一个大型的自注意力神经网络,模型结构有 96 层。每一层都用于学习语言的更复杂的模式,因此 96 层可以将语言的许多不同方面整合在一起。生成语言的时候,模型会计算出语境下最可能的回答,并在多层的模型中进行处理,以找到最终的回答。

- GPT-3是已经被预先训练好的模型,用户使用GPT-3并不会直接对模型进行训练(原以为自己在训练它)。呵呵

- 用户使用GPT-3产生的数据和反馈信息可以帮助开发者对模型进行改进和优化。

 

GPT-3 论文网址,有兴趣的可以细读。

https://arxiv.org/pdf/2005.14165v3.pdf