“再现”一词,用在文本分析上,可以认为是一个文本在另一个文本中的再出现。再出现的程度,就是常说的文本相似度。
文本相似度可以定量分析,分析值可用百分比表示(或用0到1之间数值表示)。如果相似度为零,表示两个文本毫无关联;如果相似度为100%(或者是1),则显示两个文本是简单的 copy & paste 关系。
文本相似度检测越来越多地用在反剽窃、抄袭等等行为上。一般相似度在10-15%以下可以接受;如果相似度在50%以上,则可以断定是剽窃抄袭无疑。
这里有一个中文文本相似度检测,简单地计算两个string之间的相似程度:
http://life.chacuo.net/convertsimilar
不妨以此计算一下阿冈本书中“觉醒的观念”一章白轻(lightwhite)译文(https://www.douban.com/note/300382510/)和“又译文” 之间的相似度。
去掉多余的英文词和分段,不难得出本章第一部分两个文本之间相似度为72.72% ,第二部分(原文和英译都包括一大段拉丁文)两个文本之间相似度为83%。
也可以说是“再现”度。