ChatGPT的训练数据包括: OpenWebText(开源版本),数据是从Reddit论坛上收集的URL,再把内容抓取下来。Common Crawl(一个开放的互联网数据存档)。其他数据包括Wikipedia维基百科,Books开放图书,Stack Exchange技术问答社区,Github 代码,ArXiv论文,RealNew新闻存档,PubMed数据.....等,共300 billion words。