当你下载一个所谓开源的 AI 模型譬如 DeepSeek ,大体得到这些:
训练后模型权重,譬如神经网络的参数,可多达几十亿个。训练后模型权重包容了训练学到的所有知识,一般是用二进制文件存储。
而源码文件仅仅包括模型架构(定义模型如何处理输入并生成输出),以及分词和其他必须的预处理程式,主要帮用户将输入文本转换为模型能够理解的格式。有的还会提供精调源码文档,帮用户将大模型学习结果更精细调校到本地数据,譬如从金融界收集的信息。
但没人会公开其大语言学习模型的源码,那是真真的商业机密。所以deepseek公司如果声称它训练到chatgpt水平只花了chatgpt三十分子一成本,外人是很难验证的。