“再现”的定量分析 --- 阿冈本《散文的观念》中“觉醒的观念”一章中文文本相似度检测

来源: papyrus 2018-08-16 05:47:55 [] [旧帖] [给我悄悄话] 本文已被阅读: 次 (1525 bytes)
本文内容已被 [ papyrus ] 在 2018-08-16 08:17:37 编辑过。如有问题,请报告版主或论坛管理删除.

“再现”一词,用在文本分析上,可以认为是一个文本在另一个文本中的再出现。再出现的程度,就是常说的文本相似度。
 
文本相似度可以定量分析,分析值可用百分比表示(或用0到1之间数值表示)。如果相似度为零,表示两个文本毫无关联;如果相似度为100%(或者是1),则显示两个文本是简单的 copy & paste 关系。
 
文本相似度检测越来越多地用在反剽窃、抄袭等等行为上。一般相似度在10-15%以下可以接受;如果相似度在50%以上,则可以断定是剽窃抄袭无疑。
 
这里有一个中文文本相似度检测,简单地计算两个string之间的相似程度:

http://life.chacuo.net/convertsimilar

不妨以此计算一下阿冈本书中“觉醒的观念”一章白轻(lightwhite)译文(https://www.douban.com/note/300382510/)和“又译文” 之间的相似度。

去掉多余的英文词和分段,不难得出本章第一部分两个文本之间相似度为72.72% ,第二部分(原文和英译都包括一大段拉丁文)两个文本之间相似度为83%。

也可以说是“再现”度。

所有跟帖: 

Stupid is as stupid does, *_*。问好。 -文革传人- 给 文革传人 发送悄悄话 文革传人 的博客首页 (0 bytes) () 08/16/2018 postreply 19:08:50

哈哈,和这几天那个红芯浏览器的故事倒是不无同工之妙。解压之后,发现连chrome文件名字都没改 :-)) -papyrus- 给 papyrus 发送悄悄话 (0 bytes) () 08/17/2018 postreply 02:46:20

这不仅是苍白了,你这是face都模糊了。哈哈哈。 -冰兵- 给 冰兵 发送悄悄话 冰兵 的博客首页 (0 bytes) () 08/17/2018 postreply 17:15:47

已构成了诬陷 -英二- 给 英二 发送悄悄话 英二 的博客首页 (0 bytes) () 08/16/2018 postreply 19:41:02

请您先登陆,再发跟帖!

发现Adblock插件

如要继续浏览
请支持本站 请务必在本站关闭/移除任何Adblock

关闭Adblock后 请点击

请参考如何关闭Adblock/Adblock plus

安装Adblock plus用户请点击浏览器图标
选择“Disable on www.wenxuecity.com”

安装Adblock用户请点击图标
选择“don't run on pages on this domain”