这是可以通过从大量的文本样品中用机器学习的方法学出来。所有的单词都是用数字symbolized.
如果训练集中有topic信息,机器可以学出哪些词用得更多,然后可以在训练集里根据词频计算出不同topic的可能性.
这里经常有很多伪专家,说了一大通,却回答不了简单问题。你上网查youtube应该能找到简单准确的解释