“再现”的定量分析 --- 阿冈本《散文的观念》中“觉醒的观念”一章中文文本相似度检测

本帖于 2018-08-16 08:17:37 时间, 由普通用户 papyrus 编辑

“再现”一词,用在文本分析上,可以认为是一个文本在另一个文本中的再出现。再出现的程度,就是常说的文本相似度。
 
文本相似度可以定量分析,分析值可用百分比表示(或用0到1之间数值表示)。如果相似度为零,表示两个文本毫无关联;如果相似度为100%(或者是1),则显示两个文本是简单的 copy & paste 关系。
 
文本相似度检测越来越多地用在反剽窃、抄袭等等行为上。一般相似度在10-15%以下可以接受;如果相似度在50%以上,则可以断定是剽窃抄袭无疑。
 
这里有一个中文文本相似度检测,简单地计算两个string之间的相似程度:

http://life.chacuo.net/convertsimilar

不妨以此计算一下阿冈本书中“觉醒的观念”一章白轻(lightwhite)译文(https://www.douban.com/note/300382510/)和“又译文” 之间的相似度。

去掉多余的英文词和分段,不难得出本章第一部分两个文本之间相似度为72.72% ,第二部分(原文和英译都包括一大段拉丁文)两个文本之间相似度为83%。

也可以说是“再现”度。

所有跟帖: 

Stupid is as stupid does, *_*。问好。 -文革传人- 给 文革传人 发送悄悄话 文革传人 的博客首页 (0 bytes) () 08/16/2018 postreply 19:08:50

哈哈,和这几天那个红芯浏览器的故事倒是不无同工之妙。解压之后,发现连chrome文件名字都没改 :-)) -papyrus- 给 papyrus 发送悄悄话 (0 bytes) () 08/17/2018 postreply 02:46:20

这不仅是苍白了,你这是face都模糊了。哈哈哈。 -冰兵- 给 冰兵 发送悄悄话 冰兵 的博客首页 (0 bytes) () 08/17/2018 postreply 17:15:47

已构成了诬陷 -英二- 给 英二 发送悄悄话 英二 的博客首页 (0 bytes) () 08/16/2018 postreply 19:41:02

请您先登陆,再发跟帖!